KR20240024827A

KR20240024827A - 확장된 종속 랜덤 액세스 포인트(edrap) 추가 향상 정보(sei)의 향상된 시그널링

Info

Publication number: KR20240024827A
Application number: KR1020237043645A
Authority: KR
Inventors: 이에-쿠이 왕; 양 왕; 리 장
Original assignee: 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드; 바이트댄스 아이엔씨
Priority date: 2021-06-28
Filing date: 2022-06-27
Publication date: 2024-02-26
Also published as: EP4344477A1; EP4344476A1; CN117917075A; US20240129488A1; KR20240024826A; EP4344476A4; EP4344478A1; US20240129536A1; KR20240026923A; WO2023274129A1; CN117730534A; CN117769837A; WO2023274111A1; WO2023274112A1

Abstract

비디오 데이터를 처리하기 위한 방법이 개시된다. 확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값이 결정된다. 이후 상기 edrap_leading_pictures_decodable_flag 신택스 요소에 기반하여 시각 미디어 데이터와 비트스트림 간의 변환이 실시될 수 있다. 상기 edrap_leading_pictures_decodable_flag의 값은 순서 제약이 상기 EDRAP 픽처에 부여되는지 여부를 지시한다.

Description

확장된 종속 랜덤 액세스 포인트(EDRAP) 추가 향상 정보(SEI)의 향상된 시그널링

본 특허 출원은 2021년 6월28일 예-쿠이 왕 등에 의해 제출된, "추가 향상 정보의 시그널링"이란 제목의 국제 출원 No. PCT/CN2021/02636의 우선권을 주장하기 위해 만들어졌다. 여기서, 상기 국제 출원의 전체 개시물은 본 출원의 개시의 일부로서 참고로 통합된다.

본 특허 문서는 디지털 오디오 비디오 미디어 정보의 파일 포맷 상의 생성, 저장 및 소비에 관한 것이다.

디지털 비디오는 인터넷 및 기타 디지털 통신 네트워크들에서 가장 큰 대역폭을 사용한다. 비디오를 수신하고 디스플레이할 수 있는 연결된 사용자 디바이스들의 수가 증가함에 따라, 디지털 비디오 사용에 대한 대역폭의 수요는 지속적으로 증가할 것으로 예상된다.

본 개시는 디지털 오디오 비디오 미디어 정보의 파일 포맷 상의 생성, 저장 및 소비에 관한 향상된 기술을 제공한다.

제1 양태는 비디오 데이터를 처리하기 위한 방법에 관한 것으로, 확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계; 및 상기 edrap_leading_pictures_decodable_flag 신택스 요소에 기반하여 시각 미디어 데이터와 비트스트림 간의 변환을 실시하는 단계를 포함한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 비트스트림은 적어도 하나 이상의 EDRAP 픽처를 포함하고, 상기 edrap_leading_pictures_decodable_flag의 값은 순서 제약이 상기 EDRAP 픽처에 부여되는지 여부를 지시함을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 edrap_leading_pictures_decodable_flag의 값이 0 이면, 상기 순서 제약이 상기 EDRAP 픽처에 부여되지 않음을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 edrap_leading_pictures_decodable_flag의 값이 1 이면, 상기 순서 제약이 상기 EDRAP 픽처에 부여됨을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 제약은 상기 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르는 임의의 픽처는, 상기 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 선행하는 임의의 픽처를 출력 순서 상 뒤따라야 함을 명시하는 것을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 제약은 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르며 출력 순서 상 상기 EDRAP 픽처에 선행하는 임의의 픽처는, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들(active entries)에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않음을 명시하는 것을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 edrap_leading_pictures_decodable_flag 신택스 요소는 EDRAP SEI 메시지내에 포함됨을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 참조 가능한 픽처들의 리스트는, 동일한 코딩된 계층 비디오 시퀀스(CLVS) 내 디코딩 순서 상 인트라 랜덤 액세스 포인트 (IRAP) 또는 EDRAP 픽처들을 포함함을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 참조 가능한 픽처들의 리스트내 각 픽처는 i번째 EDRAP 참조 액세스 포인트 식별자 (edrap_ref_rap_id[　i　]) 신택스 요소에 의해 식별됨을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 edrap_leading_pictures_decodable_flag 신택스 요소는 u(v)로 코딩됨을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 각 EDRAP 픽처는 트레일링 픽처(trailing picture)임을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 각 EDRAP 픽처는 0과 동일한 시간 서브계층 식별자를 가짐을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 각 EDRAP 픽처는 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처들의 참조 픽처 리스트의 활성 엔트리들내 동일 계층의 어떤 픽처도 포함하지 않음을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 비트스트림은 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 및 출력 순서 상 모두 상기 EDRAP 픽처를 뒤따르는 임의의 픽처는, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 또는 출력 순서 상 상기 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않음으로 제한되는 것을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 변환은 상기 시각 미디어 데이터를 상기 비트스트림으로 인코딩하는 것을 포함함을 제공한다.

또한, 선행 양태들 중 임의의 양태에서, 상기 양태의 다른 구현은, 상기 변환은 상기 비트스트림으로부터 상기 시각 미디어 데이터를 디코딩 하는 것을 포함함을 제공한다.

제2 양태는 비디오 데이터를 처리하기 위한 장치에 관한 것으로, 프로세서 및 명령어들을 가지는 비일시적인 메모리를 포함하며, 이때 상기 명령어들은 상기 프로세서에 의해 실행 시 상기 프로세서로 하여금 상기 선행 양태들 중 어느 것의 방법을 실시하도록 한다.

제3 양태는 비일시적인 컴퓨터 판독가능 매체에 관한 것으로, 비디오 코딩 디바이스에 의해 사용될 컴퓨터 프로그램 제품을 포함하며, 상기 컴퓨터 프로그램 제품은 상기 비일시적인 컴퓨터 판독가능 매체에 저장된 컴퓨터에 의해 실행가능한 명령어들을 포함하여 프로세서에 의해 실행 시에 상기 비디오 코딩 디바이스가 상기 선행 양태들 중 어느 것의 방법을 실시하도록 한다.

제4 양태는 비디오 처리 장치에 의해 실시되는 방법에 의해 생성되는 비디오의 비트스트림을 저장하는 비일시적인 컴퓨터 판독가능 기록 매체에 관한 것으로, 이때 상기 방법은, 확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계; 및 상기 결정에 기반하여 비트스트림을 생성하는 단계를 포함한다.

제5 양태는 비디오의 비트스트림을 저장하기 위한 방법에 관한 것으로, 상기 방법은 확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계; 상기 결정에 기반하여 비트스트림을 생성하는 단계; 및 상기 비트스트림을 비일시적인 컴퓨터 판독가능 기록 매체에 저장하는 단계를 포함한다.

명료성을 위해, 선행 실시예들 중 어느 하나가 다른 선행 실시예들 중 어느 하나 또는 그 이상의 것과 결합하여 본 개시의 범위 내에서 새로운 실시예를 생성할 수 있다.

지금까지의 특징들 및 기타 특징들은 첨부한 도면들 및 청구 범위와 함께 다음의 상세한 설명으로부터 더 명확하게 이해될 것이다.

본 개시의 보다 완전한 이해를 위해, 유사한 참조 번호들이 유사한 부분들을 나타내는 첨부 도면들 및 상세한 설명과 관련하여 취해진 다음의 간략한 설명이 이제 참조된다.
도 1은 예시적인 비트스트림을 도시하는 간략한 다이어그램이다.
도 2는 예시적인 비디오 처리 시스템을 보여주는 블록도이다.
도 3은 예시적인 비디오 처리 장치의 블록도이다.
도 4는 비디오 처리의 예시적인 방법에 대한 순서도이다.
도 5는 예시적인 비디오 코딩 시스템을 도시하는 블록도이다.
도 6은 예시적인 인코더를 도시하는 블록도이다.
도 7은 예시적인 디코더를 도시하는 블록도이다.
도 8은 예시적인 인코더의 간략한 다이어그램이다.

하나 이상의 실시예들의 예시적인 구현이 아래에 제공되지만, 개시된 시스템들 및/또는 방법들이 현재 알려져 있든 또는 개발되어야 하든 임의의 수의 기법들을 사용하여 구현될 수 있다는 것이 처음부터 이해되어야 한다. 본 개시내용은 본원에 예시되고 설명된 예시적인 설계들 및 구현들을 포함하여 아래에 예시된 예시적인 구현들, 도면들 및 기법들에 결코 제한되어서는 안 되지만, 등가물들의 전체 범위와 함께 첨부된 청구범위들의 범위 내에서 수정될 수 있다.

본 특허 문서는 영상 및/또는 비디오 코딩 기술들에 관한 것이다. 구체적으로, 본 문서는 추가 향상 정보(SEI) 메시지에서 주석 영역, 깊이 표현 정보 그리고 확장된 종속 랜덤 액세스 포인트(extended dependent random-access point, EDRAP)의 시그널링에 관한 것이다. 상기 예들은 VVC 표준 및 코딩된 비디오 비트스트림을 위한 다기능 SEI 메시지(VSEI) 표준과 같은 임의의 코덱에 의해 코딩된 비디오 비트스트림들에 대해 개별적으로 또는 다양하게 결합되어 적용될 수 있다.

본 개시는 다음과 같은 약어들을 포함한다. 알파 색상 정보(ACI: alpha color information), 적응 파라미터 세트(APS; adaptation parameter set), 액세스 유닛(AU; access unit), 코딩된 계층 비디오 시퀀스(CLVS: coded layer video sequence), 코딩된 계층 비디오 시퀀스 시작(CLVSS: coded layer video sequence start), 순환 중복성 체크(CRC; cyclic redundancy check), 색 변환 정보(CTI: color transform information), 코딩된 비디오 시퀀스(CVS; coded video sequence), 종속 랜덤 액세스 포인트(DRAP; dependent random access point), 깊이 표현 정보(DRI: depth representation information), 확장된 종속 랜덤 액세스 포인트(EDRAP: extended dependent random-access point), 유한 임펄스 응답(FIR: finite impulse response), 인트라 랜덤 액세스 포인트(IRAP; intra random access point), 멀티뷰 획득 정보(MAI: multiview acquisition information), 네트워크 추상화 계층(NAL; network abstraction layer), 픽처 파라미터 세트(PPS; picture parameter set), 픽처 유닛(PU; picture unit), 랜덤 액세스 스킵형 선두(RASL; random access skipped leading), 지역별 패킹(RWP: region-wise packing), 샘플 종횡비(SAR; sample aspect ratio), 샘플 종횡비 정보(SARI; sample aspect ratio information), 확장성 차원 정보(SDI: scalability dimension information), 추가 향상 정보(SEI; supplemental enhancement information), 단계별 시간적 서브계층 액세스(STSA; step-wise temporal sublayer access), 비디오 코딩 계층(VCL; video coding layer), 비디오 파라미터 세트(VPS; video parameter set), Rec. ITU-T H.274 | ISO/IEC 23002-7(VSEI)이라고도 알려진 다목적 추가 향상 정보(versatile supplemental enhancement information), 비디오 이용성 정보(VUI; video usability information), 및 Rec. ITU-T H.266 | ISO/IEC 23090-3, (VVC)라고도 알려진 다목적 비디오 코딩(versatile video coding).

비디오 코딩 표준들은, ITU-T(국제 전기 통신 연합-전기 통신 표준화 분과) 및 ISO/IEC(국제 표준화 기구/국제 전기기술 위원회) 표준들의 개발을 통해 주로 발전해 왔다. ITU-T는 H.261과 H.263을 생성했고, ISO/IEC는 Motion Picture Experts Group(MPEG)-1과 MPEG-4 Visual을 생성했고, 상기 두 단체는 공동으로 H.262/MPEG-2 Video와 H.264/MPEG-4 Advanced Video Coding (AVC) 및 H.265/HEVC 표준들을 생성했다. H.262 이후로, 비디오 코딩 표준들은, 시간적 예측과 변환 코딩이 이용되는 하이브리드 비디오 코딩 구조에 기초한다. HEVC 이상의 추가적인 비디오 코딩 기술들을 탐구하기 위해, JVET(Joint Video Exploration Team)가 VCEG(Video Coding Experts Group)와 MPEG에 의해 공동으로 설립되었다. 많은 새로운 방법이 JVET에 의해 채택되었으며 JEM(Joint Exploration Model)이라는 기준 소프트웨어 내에 포함되었다. JVET는, VVC(Versatile Video Coding) 프로젝트가 공식적으로 시작되었을 때 JVET(Joint Video Experts Team)로 명칭이 나중에 변경되었다. VVC는 HEVC와 비교하여 50% 비트레이트 감소를 목표로 하는 코딩 표준이다. VVC는 JVET에 의해 최종 완성되었다.

ITU-T H.266│ISO/IEC 23090-3으로도 알려진 VVC 표준 및 ITU-T H.274│ISO/IEC 23002-7으로도 알려진 연관된 VSEI 표준들은 텔레비전 방송, 화상 회의, 저장 매체로부터의 재생, 적응형 비트 레이트 스트리밍, 비디오 영역 추출, 복수의 코딩된 비디오 비트스트림으로부터의 콘텐츠의 합성 및 병합, 멀티뷰 비디오, 스케일가능한 계층화된 코딩 및 뷰 포트 적응형 360° 몰입형 미디어와 같은 광범위한 응용에서의 이용을 위해 설계되었다. 필수 비디오 코딩(Essential Video Coding (EVC)) 표준(ISO/IEC 23094-1)은 MPEG에 의해 개발된 또 다른 비디오 코딩 표준이다.

VSEI 표준에 대한 예시적인 개정은 주석 영역 SEI 메시지, 알파 채널 정보 SEI 메시지, 깊이 표현 정보 SEI 메시지, 멀티 뷰 획득 정보 SEI 메시지, 확장성 차원 정보 SEI 메시지, 연장된 종속적 랜덤 액세스 포인트(DRAP) 지시 SEI 메시지, 디스플레이 방향 SEI 메시지, 그리고 색 변환 정보 SEI 메시지를 포함하는 추가 SEI 메시지들의 사양을 포함한다.

예시적인 주석 영역 SEI 메시지 신택스는 다음과 같다.

예시적인 주석 영역 SEI 메시지 시맨틱스는 다음과 같다. 주석 영역 SEI 메시지는 식별된 대상들의 크기와 위치를 표시하는 바운딩 박스를 사용하여 주석 영역들을 식별하는 파라미터들을 전달한다. 이러한 SEI 메시지의 사용은 다음과 같은 변수들의 정의를 요구한다. 이러한 변수들은 여기서 각각 CroppedWidth 및 CroppedHeight로 표시되는 루마 샘플 단위의 크로핑된 픽처 폭 및 픽처 높이, 각각 SubWidthC 및 SubHeightC로 표시되는 크로마 서브 샘플링 폭 및 높이, ConfWinLeftOffset으로 표시되는 적합성 크로핑 윈도우 좌측 오프셋, 그리고 ConfWinTopOffset으로 표시되는 적합성 크로핑 윈도우 상단 오프셋을 포함한다.

1과 같게 설정된 ar_cancel_flag는 주석 영역 SEI 메시지가 적용되는 하나 또는 그 이상의 계층들과 연관된 임의의 선행 주석 영역 SEI 메시지의 지속을 무효화한다. 0과 같게 설정된 ar_cancel_flag는 주석 영역 정보가 뒤따른다는 것을 지시한다. ar_cancel_flag가 1과 같거나 현재 계층의 새로운 CVS가 시작되는 경우, 변수들 LabelAssigned[i], ObjectTracked[i], 그리고 ObjectBoundingBoxAvail은 0과 같게 설정되며, 여기서 i는 0 내지 255의 범위 내에(경계값 포함) 있다.

1과 같게 설정된 ar_not_optimized_for_viewing_flag는 주석 영역 SEI 메시지가 적용되는 디코딩된 픽처들이 사용자가 보기 위해 최적화되지 않았고 오히려 알고리즘적 대상 분류 성능과 같은 어떤 다른 목적을 위해 최적화되었음을 지시한다. 0과 같게 설정된 ar_not_optimized_for_viewing_flag는 주석 영역 SEI 메시지가 적용되는 디코딩된 픽처들이 사용자가 보기 위해 최적화되거나 최적화되지 않을 수 있다는 것을 지시한다.

1과 같게 설정된 ar_true_motion_flag는 주석 영역 SEI 메시지가 적용되는 코딩된 픽처들에서의 모션 정보가 주석 영역들 내의 대상들에 대한 대상 모션을 정확하게 표현하는 목적으로 선택되었음을 지시한다. 0과 같게 설정된 ar_true_motion_flag는 주석 영역 SEI 메시지가 적용되는 코딩된 픽처들에서의 모션 정보가 주석 영역들 내의 대상들에 대한 대상 모션을 정확하게 표현하는 목적으로 선택되거나 선택되지 않을 수 있음을 지시한다.

1과 같게 설정된 ar_occluded_object_flag는 ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]] 및 ar_bounding_box_height[ar_object_idx[ i ]] 신택스 요소들 각각이 크로핑된 디코딩된 픽처 내에서 보이지 않을 수 있거나 오직 부분적으로만 보일 수 있는 대상의 크기 및 위치 또는 대상의 부분을 나타냄을 지시한다. 0과 같게 설정된 ar_occluded_object_flag는 ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]] 및 ar_bounding_box_height[ar_object_idx[ i ]] 신택스 요소들이 크로핑된 디코딩된 픽처 내에서 완전히 보일 수 있는 대상의 크기 및 위치를 나타냄을 지시한다. 비트스트림 적합성은 ar_occluded_object_flag의 값이 CVS 내의 모든 annotated_regions( ) 신택스 구조들에 대해 동일해야 함을 요구한다.

1과 같게 설정된 ar_partial_object_flag_present_flag는 ar_partial_object_flag[ar_object_idx[i]] 신택스 요소들이 존재함을 지시한다. 0과 같게 설정된 ar_partial_object_flag_present_flag는 ar_partial_object_flag[ar_object_idx[i]] 신택스 요소들이 존재하지 않음을 지시한다. 비트스트림 적합성은 ar_partial_object_flag_present_flag의 값이 CVS 내의 모든 annotated_regions( ) 신택스 구조들에 대해 동일해야 함을 요구한다.

1과 같게 설정된 ar_object_label_present_flag는 주석 영역들의 대상들에 해당하는 레이블 정보가 존재한다고 지시한다. 0과 같게 설정된 ar_object_label_present_flag는 주석 영역들의 대상들에 해당하는 레이블 정보가 존재하지 않는다고 지시한다.

1과 같게 설정된 ar_object_confidence_info_present_flag는 ar_object_confidence[ar_object_idx[i]] 신택스 요소들이 존재한다고 지시한다. 0과 같게 설정된 ar_object_confidence_info_present_flag는 ar_object_confidence[ar_object_idx[i]] 신택스 요소들이 존재하지 않는다고 지시한다. 비트스트림 적합성은 ar_object_confidence_present_flag의 값이 CVS 내의 모든 annotated_regions( ) 신택스 구조들에 대해 동일해야 함을 요구한다.

ar_object_confidence_length_minus1+1은 ar_object_confidence[ar_object_idx[i]] 신택스 요소들의 길이를 비트 단위로 명시한다. 비트스트림 적합성은 ar_object_confidence_length_minus1의 값이 CVS 내의 모든 annotated_regions( ) 신택스 구조들에 대해 동일해야 함을 요구한다.

1과 같게 설정된 ar_object_label_language_present_flag는 ar_object_label_language 신택스 구조가 존재한다고 지시한다. 0과 같게 설정된 ar_object_label_language_present_flag는 ar_object_label_language 신택스 구조가 존재하지 않는다고 지시한다. ar_bit_equal_to_zero는 0과 같아야 한다.

ar_object_label_language는 0x00와 같은 널 종료 바이트가 그에 뒤따르는 언어 태그를 포함한다. ar_object_label_language 신택스 요소의 길이는 상기 널 종료 바이트를 포함하지 않고 255 바이트 이하여야 한다. 존재하지 않는 경우, 상기 레이블의 상기 언어는 명시되지 않는다.

ar_num_label_updates는 시그널링될 주석 영역들과 관련된 레이블의 총 수를 지시한다. ar_num_label_updates의 값은 0 내지 255의 범위내에(경계값 포함) 있어야 한다. ar_label_idx[i]는 시그널링된 레이블의 인덱스를 지시한다. ar_label_idx[i]의 값은 0 내지 255의 범위내에(경계값 포함) 있어야 한다.

1과 같게 설정된 ar_label_cancel_flag는 ar_label_idx[i] 번째 레이블의 지속 범위를 무효화한다. 0과 같게 설정된 ar_label_cancel_flag는 ar_label_idx[i] 번째 레이블에 시그널링된 값이 할당됨을 지시한다. ar_label[ar_label_idx[i]]는 ar_label_idx[i] 번째 레이블의 콘텐츠를 명시한다. 상기 ar_label[ar_label_idx[i]] 신택스 요소의 길이는 상기 널 종료 바이트를 포함하지 않고 255 바이트 이하여야 한다.

ar_num_object_updates는 시그널링될 대상 업데이트의 수를 지시한다. ar_num_object_updates는 0 내지 255의 범위 내에(경계값 포함) 있어야 한다. ar_object_idx[i]는 시그널링되는 대상 파라미터들의 인덱스이다. ar_object_idx[i]는 0 내지 255의 범위 내에(경계값 포함) 있어야 한다. 1과 같게 설정된 ar_object_cancel_flag는 ar_object_idx[i] 번째 대상의 지속 범위를 무효화한다. 0과 같게 설정된 ar_object_cancel_flag는 ar_object_idx[i] 번째 대상으로 추적되는 대상과 관련된 파라미터들이 시그널링될 것임을 지시한다. 1과 같게 설정된 ar_object_label_update_flag는 대상 레이블이 시그널링된다고 지시한다. 0과 같게 설정된 ar_object_label_update_flag는 대상 레이블이 시그널링되지 않는다고 지시한다.

ar_object_label_idx[ar_object_idx[i]]는 ar_object_idx[i] 번째 대상에 해당하는 레이블의 인덱스를 지시한다. ar_object_label_idx[ar_object_idx[i]]가 존재하지 않는 경우, 그것의 값은 동일한 CVS 내에서 출력 순서 상 선행하는 주석 영역 SEI 메시지가 있다면 그것으로부터 추론된다. 1과 같게 설정된 ar_bounding_box_update_flag는 대상 바운딩 박스 파라미터들이 시그널링된다고 지시한다. 0과 같게 설정된 ar_bounding_box_update_flag는 대상 바운딩 박스 파라미터들이 시그널링 되지 않는다고 지시한다.

1과 같게 설정된 ar_bounding_box_cancel_flag는 ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]], ar_bounding_box_height[ar_object_idx[i]], ar_partial_object_flag[ar_object_idx[i]], 그리고 ar_object_confidence[ar_object_idx[i]]의 지속 범위를 무효화한다. 0과 같게 설정된 ar_bounding_box_cancel_flag는 ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]], ar_bounding_box_height[ar_object_idx[i]], ar_partial_object_flag[ar_object_idx[i]], 그리고 ar_object_confidence[ar_object_idx[i]] 신택스 요소들이 시그널링됨을 지시한다.

ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]], 그리고 ar_bounding_box_height[ar_object_idx[i]]는 활성 SPS에 의해 명시되는 적합성 크로핑 윈도우에 상대적으로, 크로핑된 디코딩된 픽처 내 ar_object_idx[i] 번째 대상의 바운딩 박스의 좌상단 코너의 좌표들과 폭 및 높이를 명시한다.

ar_bounding_box_left[ar_object_idx[i]]의 값은 0 내지 CroppedWidth/SubWidthC-1의 범위 내에(경계값 포함) 있어야 한다. ar_bounding_box_top[ar_object_idx[i]]의 값은 0 내지 CroppedHeight/SubHeightC-1의 범위 내에(경계값 포함) 있어야 한다. ar_bounding_box_width[ar_object_idx[i]]의 값은 0 내지 CroppedWidth/SubWidthC- ar_bounding_box_height[ar_object_idx[i]] 의 범위 내에(경계값 포함) 있어야 한다. ar_bounding_box_height[ar_object_idx[i]]의 값은 0 내지 CroppedHeight/SubHeightC - ar_bounding_box_top[ar_object_idx[i]]의 범위 내에(경계값 포함) 있어야 한다. 식별된 대상 직사각형은 SubWidthC * (ConfWinLeftOffset + ar_bounding_box_left[ar_object_idx i]]) 내지 SubWidthC * (ConfWinLeftOffset + ar_bounding_box_left[ar_object_idx[i]] + ar_bounding_box_width[ar_object_idx[i]]) - 1까지(경계값 포함)의 수평 픽처 좌표들 및 SubHeightC * ( ConfWinTopOffset + ar_bounding_box_top[ar_object_idx[i]]) 내지 SubHeightC * (ConfWinTopOffset + ar_bounding_box_top[ar_object_idx[i]] + ar_bounding_box_height [ar_object_idx[i]]) - 1 까지(경계값 포함)의 수직 픽처 좌표들을 가지는 루마 샘플들을 포함한다. ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]], 그리고 ar_bounding_box_height[ar_object_idx[i]]는 ar_object_idx[i]의 각 값에 대해 CVS 내에서 출력 순으로 지속된다. 존재하지 않는 경우, ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]] 또는 ar_bounding_box_height[ar_object_idx[i]]의 값들은 CVS에서 출력 순서 상 선행하는 주석 영역 SEI 메시지가 있으면 그것으로부터 추론된다.

1과 같게 설정된 ar_partial_object_flag[ar_object_idx[i]]는 ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]] 및 ar_bounding_box_height[ar_object_idx[i]] 신택스 요소들이 크로핑된 디코딩된 픽처 내에서 오직 부분적으로만 보이는 대상의 크기 및 위치를 나타낸다고 지시한다. 0과 같게 설정된 ar_partial_object_flag[ar_object_idx[i]]는 ar_bounding_box_top[ar_object_idx[i]], ar_bounding_box_left[ar_object_idx[i]], ar_bounding_box_width[ar_object_idx[i]] 및 ar_bounding_box_height[ar_object_idx[i]] 신택스 요소들이 크로핑된 디코딩된 픽처 내에서 오직 부분적으로만 보이거나 그렇지 않을 수 있는 대상의 크기 및 위치를 나타낸다고 지시한다. 존재하지 않는 경우, ar_partial_object_flag[ar_object_idx[i]]의 값은 CVS에서 출력 순서 상 선행하는 주석 영역 SEI 메시지가 있으면 그것으로부터 추론된다.

ar_object_confidence[ar_object_idx[i]]는 2-(ar_object_confidence_length_minus1 + 1)의 단위로 ar_object_idx[i] 번째 대상과 관련된 신뢰도를 지시하여, ar_object_confidence[ar_object_idx[i]]의 값이 더 높으면 더 높은 신뢰도를 지시한다. ar_object_confidence[ar_object_idx[i]] 신택스 요소의 길이는 ar_object_confidence_length_minus1 + 1 비트이다. 존재하지 않는 경우, ar_object_confidence[ar_object_idx[i]]의 값은 CVS에서 출력 순서 상 선행하는 주석 영역 SEI 메시지가 있으면 그것으로부터 추론된다.

이제 깊이 표현 정보SEI 메시지가 논의된다. 예시적인 깊이 표현 정보 SEI 메시지 신택스는 다음과 같다.

예시적인 깊이 표현 정보 요소 신택스는 다음과 같다.

예시적인 깊이 표현 정보 SEI 메시지 시맨틱스는 다음과 같다. 깊이 표현 정보(depth representation information, DRI) SEI 메시지의 신택스 요소들은 뷰 합성과 같은 3차원(3D) 디스플레이 상에 제공하기에 앞서 디코딩된 일차 및 보조 픽처들을 처리할 목적으로 AUX_DEPTH 유형의 보조 픽처들에 대한 다양한 파라미터들을 명시한다. 예를 들어, 깊이 픽처들에 대한 깊이 또는 변이 범위들이 명시된다.

이러한 SEI 메시지의 사용은 다음과 같은 변수의 정의를 요구할 수 있다. 여기에서 BitDepthY로 표기되는, 루마 성분의 샘플들에 대한 비트 깊이. CVS가 i의 적어도 하나의 값에 대해 2와 같은 sdi_aux_id[i]를 가지는 SDI SEI 메시지를 포함하지 않는 경우, 상기 CVS 내의 어떤 픽처도 DRI SEI 메시지와 연관되지 않아야 한다. 액세스 유닛(AU)이 i의 적어도 하나의 값에 대해 sdi_aux_id[i]가 2와 같은 SDI SEI 메시지와 DRI SEI 메시지를 모두 포함하는 경우, 상기 SDI SEI 메시지는 디코딩 순서 상 상기 DRI SEI 메시지에 선행해야 한다. 존재하는 경우, 상기 DRI SEI 메시지는 SDI SEI 메시지에 의해 깊이 보조 계층으로 지시되는 하나 또는 그 이상의 계층들과 연관되어야 한다. 다음 시맨틱스는 상기 DRI SEI 메시지가 적용되는 nuh_layer_id 값들 중 각각의 nuh_layer_idtargetLayerId에 별도로 적용된다. 존재하는 경우, 상기 DRI SEI 메시지는 임의의 액세스 유닛에 포함될 수 있다. 존재하는 경우, 상기 SEI 메시지는 targetLayerId와 같은 nuh_layer_id를 가지는 코딩된 픽처가 IRAP 픽처인 액세스 유닛에서 랜덤 액세스를 목적으로 포함되도록 권장된다. 상기 DRI SEI 메시지에서 지시되는 정보는 상기 SEI 메시지를 포함하는 액세스 유닛으로부터 targetLayerId에 적용가능한 DRI SEI 메시지와 연관되는, 디코딩 순서 상의 그 다음 픽처 바로 앞까지 또는 targetLayerId와 같은 nuh_layer_id의 CLVS의 종단까지 중에서 디코딩 순서 상 먼저인 것까지에서 targetLayerId와 같은 nuh_layer_id를 가지는 모든 픽처들에 적용된다.

0과 같게 설정된 z_near_flag는 가장 가까운 깊이 값을 명시하는 신택스 요소들이 신택스 구조에 존재하지 않음을 명시한다. 1과 같게 설정된 z_near_flag는 가장 가까운 깊이 값을 명시하는 신택스 요소들이 신택스 구조에 존재함을 명시한다. 0과 같게 설정된 z_far_flag는 가장 먼 깊이 값을 명시하는 신택스 요소들이 신택스 구조에 존재하지 않음을 명시한다. 1과 같게 설정된 z_far_flag는 가장 먼 깊이 값을 명시하는 신택스 요소들이 신택스 구조에 존재함을 명시한다. 0과 같게 설정된 d_min_flag는 최소 변이 값을 명시하는 신택스 요소들이 신택스 구조에 존재하지 않음을 명시한다. 1과 같게 설정된 d_min_flag는 최소 변이 값을 명시하는 신택스 요소들이 신택스 구조에 존재함을 명시한다. 0과 같게 설정된 d_max_flag는 최대 변이 값을 명시하는 신택스 요소들이 신택스 구조에 존재하지 않음을 명시한다. 1과 같게 설정된 d_max_flag는 최대 변이 값을 명시하는 신택스 요소들이 신택스 구조에 존재함을 명시한다. depth_representation_type은 표 1에 명시된 것과 같은 보조 픽처들의 디코딩된 루마 샘플들의 표현 정의를 명시한다. 표 1에서 변이는 두 개의 텍스처 뷰 간의 수평 변위를 명시하며, Z 값은 카메라로부터의 거리를 명시한다. 변수 maxVal은 (1 << BitDepthY) - 1과 같게 설정된다.

표 1 - depth_representation_type의 정의 (아래 표 1 로 개시됨)

depth_representation_type	해석
0	보조 픽처의 각각의 디코딩된 루마 샘플 값은 0내지 maxVal의 범위(경계값 포함)로 균등하게 양자화되는 Z값의 역을 나타낸다. z_far_flag가 1과 같으면, 0과 같은 루마 샘플 값은 ZFar의 역을 나타낸다(아래에 명시). z_near_flag가 1과 같으면, maxVal과 같은 루마 샘플 값은 ZNear의 역을 나타낸다(아래에 명시).
1	보조 픽처의 각각의 디코딩된 루마 샘플 값은 0내지 maxVal의 범위(경계값 포함)로 균등하게 양자화되는 전이를 나타낸다. d_min_flag가 1과 같으면, 0과 같은 루마 샘플 값은 DMin을 나타낸다(아래에 명시). d_max_flag가 1과 같으면, maxVal과 같은 루마 샘플 값은 DMax를 나타낸다(아래에 명시).
2	보조 픽처의 각각의 디코딩된 루마 샘플 값은 0내지 maxVal의 범위(경계값 포함)로 균등하게 양자화되는 Z값을 나타낸다. z_far_flag가 1과 같으면, 0과 같은 루마 샘플 값은 ZFar에 해당한다(아래에 명시). z_near_flag가 1과 같으면, maxVal과 같은 루마 샘플 값은 ZNear를 나타낸다(아래에 명시).
3	보조 픽처의 각각의 디코딩된 루마 샘플 값은, depth_nonlinear_representation_num_minus1 및 depth_nonlinear_representation_model[ i ]에 의해 명시되듯이, 0 내지 maxVal의 범위에서 정규화되고 비선형적으로 매핑된 변이를 나타낸다. d_min_flag가 1과 같으면, 0과 같은 루마 샘플 값은 DMin을 나타낸다(아래에 명시). d_max_flag가 1과 같으면, maxVal과 같은 루마 샘플 값은 DMax를 나타낸다(아래에 명시).
기타 값들	차후 사용을 위해 유보

disparity_ref_view_id는 ViewId 값을 명시하며, 이것에 대해 변이값들이 도출된다. disparity_ref_view_id는 오직 d_min_flag가 1과 같거나 d_max_flag가 1과 같은 경우에만 존재하며, 1 및 3과 같은 depth_representation_type 값들에 대해 유용하다는 사실에 유의해야 한다. 표 2에서 x열의 변수들은 아래와 같이 표 2의 s, e, n 및 v 열의 각 변수들로부터 도출된다. 만약 e의 값이 0 내지 127의 범위(경계값 미포함)에 있다면, x는 ( -1 )^s* 2e - 31 * ( 1 + n 2^v )와 같게 설정된다. 그 외의 경우 (e가 0과 같다), x는 ( -1 )^s* 2-( 30 + v ) * n과 같게 설정된다.

표 2 - 깊이 파라미터 변수와 신택스 요소간의 연관

DMin 및 DMax 값들이 존재하는 경우 보조 픽처의 ViewId와 같은 ViewId를 가지는 코딩된 픽처의 루마 샘플 폭의 단위로 명시된다. ZNear 및 ZFar 값들에 대한 단위들은 그것들이 존재하는 경우 동일하지만 명시되지 않는다. depth_nonlinear_representation_num_minus1 plus 2는 깊이 값을 변이의 측면에서 균등하게 양자화된 스케일로 매핑하기 위한 피스 단위 선형 세그먼트들의 수를 명시한다. i가 0 내지 depth_nonlinear_representation_num_minus1+2의 범위에 있는(경계값 포함) depth_nonlinear_represenation_model[i]은 보조 픽처의 디코딩된 루마 샘플 값을 변이 측면에서 균등하게 양자화된 스케일로 매핑하기 위한 피스 단위 선형 세그먼트들을 명시한다. depth_nonlinear_represenation_model[0] 및 depth_nonlinear_represenation_model[ depth_nonlinear_representation_num_minus1+2 ]의 값들은 모두 0과 같은 것으로 추론된다.

depth_representation_type이 3과 같으면, 보조 픽처는 비선형적으로 변환된 깊이 샘플들을 포함한다. 아래에 명시되는 것과 같이, 변수 DepthLUT[i]는 비선형 표현으로부터 디코딩된 깊이 샘플 값들을 선형 표현, 즉 균등하게 양자화된 변이값들로 변환하기 위해 사용된다. 이러한 변환의 모양은 2차원 선형 변이 대 비선형 변이 공간에서 라인-세그먼트 근사에 의해 정의된다. 커브의 첫번째(0, 0) 및 마지막(maxVal, maxVal) 노드들이 미리 정의된다. 추가 노드들의 위치는 직선 커브로부터의 편차(depth_nonlinear_representation_model[i])의 형태로 전송된다. 이러한 편차들은 0 내지 maxVal의 범위 전체(경계값 포함)에 걸쳐 균등하게 배분되며, 간격은 nonlinear_depth_representation_num_minus1의 값에 의존한다.

i가 0 내지 maxVal의 범위에 있는(경계값 포함) 변수 DepthLUT[i]는 아래와 같이 명시된다.

depth_representation_type이 3과 같으면, 0 내지 maxVal의 범위에 있는(경계값 포함) 보조 픽처의 모든 디코딩된 루마 샘플 값들에 대한 DepthLUT[dS]는 0 내지 maxVal의 범위(경계값 포함)로 균등하게 양자화되는 변이를 나타낸다.

깊이 표현 정보 요소 시맨틱스는 다음과 같다. 신택스 구조는 DRI SEI 메시지내의 요소의 값을 명시한다. 신택스 구조는 플로팅 포인트 값을 나타내는 OutSign, OutExp, OutMantissa 및 OutManLen 변수들의 값들을 설정한다. 신택스 구조가 다른 신택스 구조에 포함되는 경우, OutSign, OutExp, OutMantissa 및 OutManLen이라는 변수 이름들은 상기 신택스 구조가 포함될 때 사용되는 변수 이름들로 대체되는 것으로 해석되어야 한다.

0과 같은 da_sign_flag는 플로팅 포인트 값의 부호가 양의 부호임을 지시한다. 1과 같은 da_sign_flag는 플로팅 포인트 값의 부호가 음의 부호임을 지시한다. 변수 OutSign는 da_sign_flag과 같은 것으로 설정된다. da_exponent는 플로팅 포인트 값의 지수를 명시한다. da_exponent의 값은 0 내지 2⁷-2의 범위(경계값 포함) 내에 있어야 한다. 2⁷-1의 값은 차후의 사용을 위해 따로 남겨졌다. 디코더는 2⁷-1을 특정되지 않은 값을 지시하는 것으로 취급해야 한다. 변수 OutExp는 da_exponent와 같게 설정된다. da_mantissa_len_minus1 plus 1은 da_mantissa 신택스 요소 내 비트의 수를 명시한다. da_mantissa_len_minus1의 값은 0 내지 31의 범위(경계값 포함)에 있어야 한다. 변수 OutManLen는 da_mantissa_len_minus1 + 1과 같은 것으로 설정된다. da_mantissa는 플로팅 포인트 값의 가수를 명시한다. 변수 OutMantissa는 da_mantissa와 같은 것으로 설정된다.

확장된 DRAP 표시 SEI 메시지는 다음과 같다. 예시적인 확장된 DRAP 표시 SEI 메시지 신택스는 다음과 같다.

예시적인 확장된 DRAP 표시 SEI 메시지 시맨틱스는 다음과 같다. 확장된 DRAP(EDRAP) 표시 SEI 메시지와 연관된 픽처는 EDRAP 픽처로 불린다. EDRAP 표시 SEI 메시지의 존재는 본 하위조항에서 명시되는 픽처 순서 및 픽처 참조에 대한 제약들이 적용된다는 것을 지시한다. 이러한 제약들은 디코더로 하여금 EDRAP 픽처 및 그것을 디코딩 순서와 출력 순서 모두에서 뒤따르고 동일한 계층에 있는 픽처들을 적절하게 디코딩하고, 픽처들의 리스트를, 참조 가능한 픽처들(referenceablePictures), 제외한 동일 계층 내 다른 어떤 픽처들도 디코딩 할 필요가 없도록 할 수 있다. 이것은 동일한 CLVS 내에 있으며 edrap_ref_rap_id[i] 신택스 요소들에 의해 식별되는 IRAP 또는 EDRAP 픽처들의 디코딩 순서 상의 리스트를 포함한다.

EDRAP 표시 SEI 메시지의 존재에 의해 지시되고, 적용되어야 하는 제약들은 다음과 같다. EDRAP 픽처는 트레일링 픽처(trailing picture)이다. EDRAP 픽처는 0과 동일한 시간 서브계층 식별자를 갖는다. EDRAP 픽처는 참조 가능한 픽처들(referenceablePictures)을 제외하고 그것의 참조 픽처 리스트들의 활성 엔트리들(active entries)에 있는 동일 계층의 어떤 픽처도 포함하지 않는다. 디코딩 순서와 출력 순서 둘 모두에서 EDRAP 픽처를 뒤따르며 동일 계층에 있는 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 참조 가능한 픽처들(referenceablePictures)을 제외하고, 동일한 계층에 있고 디코딩 순서 또는 출력 순서에서 EDRAP 픽처에 선행하는 어떠한 픽처도 포함하지 않는다.

edrap_leading_pictures_decodable_flag가 1과 같은 경우, 다음이 적용된다. 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르는 임의의 픽처는 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 임의의 픽처에 출력 순서 상 뒤따라야 한다. 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르나 출력 순서 상으로는 EDRAP 픽처에 선행하는 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 참조 가능한 픽처들(referenceablePictures)을 제외하고, 동일 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않는다. 참조 가능한 픽처들(referenceablePictures) 리스트 내의 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 동일 계층에 있지만 참조 가능한 픽처들(referenceablePictures) 리스트에서 앞선 위치에 있는 픽처는 아닌 어떤 픽처도 포함하지 않는다. 결과적으로, 참조 가능한 픽처들(referenceablePictures) 내의 첫 번째 픽처는, 그것이 IRAP 픽처가 아니라 EDRAP 픽처인 경우에도, 그것의 참조 픽처 리스트들의 활성 엔트리들에 동일한 계층의 어떤 픽처도 포함하지 않는다.

edrap_rap_id_minus1 plus 1은, RapPicId로 표기되는, EDRAP 픽처의 랜덤 액세스 포인트(RAP) 픽처 식별자를 명시한다. 각각의 IRAP 또는 EDRAP 픽처는 RapPicId 값과 연관된다. IRAP 픽처에 대한 RapPicId 값은 0과 같다고 추론된다. 동일한 IRAP 픽처와 연관된 임의의 두 EDRAP 픽처들에 대한 RapPicId 값들은 상이해야 한다. edrap_reserved_zero_12bits는 본 개시에 부합하도록 비트스트림들에서 0과 같아야 한다. edrap_reserved_zero_12bits에 대한 다른 값들은 유보된다. 디코더들은 edrap_reserved_zero_12bits의 값을 무시할 수 있다. edrap_num_ref_rap_pics_minus1 plus1은 EDRAP 픽처와 같은 CLVS내에 있으며 EDRAP 픽처의 참조 픽처 리스트들의 활성 엔트리들에 포함될 수 있는 IRAP 또는 EDRAP 픽처들의 수를 지시한다. edrap_ref_rap_id[i]는 EDRAP 픽처의 참조 픽처 리스트들의 활성 엔트리들에 포함될 수 있는 i번째 RAP 픽처의 RapPicId를 지시한다. i번째 RAP 픽처는 현재 EDRAP 픽처와 연관된 IRAP 픽처이거나 현재 EDRAP 픽처와 동일한 IRAP 픽처와 연관된 EDRAP 픽처여야 한다.

다음은 개시된 기술적 해결책들에 의해 해결된 예시적인 기술적 문제들이다. 주석 영역 SEI 메시지, 깊이 표현 정보 SEI 메시지, 그리고 EDRAP 표시 SEI 메시지를 위한 예시적인 설계들은 적어도 다음과 같은 문제들을 가지고 있다. 주석 영역 SEI 메시지의 경우, i번째 주석 영역 대상 인덱스의 ue(v) 코딩된 신택스 요소 AR 대상 레이블 인덱스(ar_object_label_idx[ar_object_idx[i]])의 값 범위가 누락되어 있다. ue(v) 코딩된 신택스 요소에 대해 명시된 값 범위를 가지지 못한 것과 연관된 한 가지 실질적인 문제는 얼마나 많은 비트가 구현에서 해당 변수에 대해 사용될 수 있는지를 설계가 확실하게 하지 못한다는 것이다. 만약 상기 구현에서 사용되는 비트들의 최대 수가 충분하지 않다면, 사용되는 비트 수에 의해 허용되는 최대 값 보다 더 큰 값을 만날 경우 디코더는 작동하지 않을 수 있다. 깊이 표현 정보 SEI 메시지의 경우, i번째 깊이 비선형 표현 모델(depth_nonlinear_representation_model[i])의 기술어(가령, 코딩 방법)가 명시되지 않는다. 코딩 방법을 명시하지 않으면, 디코더가 해당 신택스 요소를 파싱하는 방식을 결정하지 못할 수 있다. 깊이 표현 정보 SEI 메시지의 경우, ue(v) 코딩된 신택스 요소 깊이 표현 유형(depth_representation_type), 변이 참조 뷰 식별자(disparity_ref_view_id), 깊이 비선형 표현 수 마이너스 1(depth_nonlinear_representation_num_minus1) 그리고 depth_nonlinear_representation_model[i]의 값 범위들이 명시되지 않는다. EDRAP 표시 SEI 메시지의 경우, EDRAP 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 시맨틱스가 누락되었다.

여기에 개시된 것은 위에 열거된 문제들 중 하나 또는 그 이상을 다루는 메커니즘들이다. 예를 들어, 본 개시는 ar_object_label_idx[ar_object_idx[i]]에 대한 예시적인 값의 범위들을 명시한다. 더 나아가, 본 개시는 depth_nonlinear_representation_model[i]에 대한 예시적인 기술어들을 명시한다. 또한, 본 개시는 depth_repesentation_type, disparity_ref_view_id, depth_nonlinear_representation_num_minus1, 그리고 depth_nonlinear_representation_model[i]을 위한 예시적인 값의 범위들을 명시한다. 또한, 본 개시는 edrap_leading_pictures_decodable_flag를 위한 예시적인 시맨틱스를 명시한다.

도 1은 예시적인 비트스트림(100)을 도시하는 간략한 다이어그램이다. 비트스트림(100)은 압축된 비디오 및 관련 신택스를 포함할 수 있다. 예를 들어, 비트스트림(100)은 인코더에 의해 인코딩되고, 하나 이상의 네트워크들을 가로질러 송신되며, 사용자에게 디스플레이하기 위해 디코더에 의해 디코딩될 수 있다. 예를 들어, 비트스트림(100)은 하나 이상의 코딩된 비디오 시퀀스들(CVS)을 형성하는 액세스 유닛들(AU)의 시퀀스의 표현을 형성하는 비트들의 시퀀스로 정의될 수 있다. AU는 비디오 시퀀스에서 해당 출력 시간과 연관되는 하나 이상의 픽처들의 세트이다. 비트스트림은 네트워크 추상화 계층(NAL) 유닛 스트림 또는 바이트 스트림의 형태를 취할 수 있다.

비트스트림(100)은 하나 이상의 시퀀스 파라미터 세트들(SPS)(113), 복수의 픽처 파라미터 세트들(PPS)(115), 복수의 슬라이스들(125), 주석 영역(AR) SEI 메시지(131), DRI SEI 메지시(133), 그리고 EDRAP 표시 SEI 메시지(135)를 포함한다. SPS(113)는 비트스트림(100)에 포함된 코딩된 비디오 시퀀스내의 모든 픽처에 공통인 시퀀스 데이터 관련 파라미터들을 포함한다. SPS(113) 내의 상기 파라미터들은, 픽처 크기조정, 비트 깊이, 코딩 툴 파라미터들, 비트 레이트 제약들 등을 포함할 수 있다. 각각의 시퀀스가 SPS(113)을 참조하는 동안, 하나의 SPS(113)는 일부 예에서 다중 시퀀스들에 대한 데이터를 포함할 수 있음에 주의해야 한다. PPS(115)는 전체 픽처에 적용되는 파라미터들을 포함한다. 이로 인해, 비디오 시퀀스 내 각 픽처는 PPS(115)를 참조할 수 있다. 각 픽처가 PPS(115)를 참조하는 동안, 하나의 PPS(115)는 일부 예에서 다중 시퀀스들에 대한 데이터를 포함할 수 있음에 주의해야 한다. 예를 들어, 다수의 유사한 픽처들은 유사한 파라미터들에 따라 코딩될 수 있다. 이러한 경우에, 하나의 PPS(115)는 그와 같은 유사한 픽처들에 대한 데이터를 포함할 수 있다. 상기 PPS(115) 해당 픽처들의 슬라이스들에 대해 가용한 코딩 툴들, 양자화 파라미터들, 오프셋들 등을 지시할 수 있다.

상기 슬라이스들은 각각 슬라이스 헤더 및 픽처 내 영역으로부터의 영상 데이터를 포함할 수 있다. 상기 슬라이스 헤더는 각 슬라이스에 해당하는 파라미터들을 포함한다. 그리하여, 비디오 시퀀스에는 슬라이스 당 하나의 슬라이스 헤더가 있을 수 있다. 슬라이스 헤더는 슬라이스 유형 정보, 픽처 오더 카운트(POC), 참조 픽처 리스트, 예측 가중치, 타일 엔트리 포인트, 디블록킹 파라미터 등을 포함할 수 있다. 일부 예에서, 비트스트림(100)은 단일한 픽처 내 모든 슬라이스들에 적용되는 파라미터를 포함하는 신택스 구조인 픽처 헤더 또한 포함할 수 있다는 사실에 주의해야 한다. 이러한 이유로, 픽처 헤더와 슬라이스 헤더는 일부 맥락에서 상호 교체되어 사용될 수 있다. 예를 들어, 특정 파라미터들은 이러한 파라미터들이 픽처 내 모든 슬라이스들에 대해 공통적인지 여부에 따라 슬라이스 헤더와 픽처 헤더 사이를 이동할 수 있다. 슬라이스(125) 내의 영상 데이터는 화면 간 예측 및/또한 화면 내 예측에 따라 인코딩된 비디오 데이터 뿐 아니라 상응하는 변환 및 양자화 잔차 데이터도 포함한다. 하나 이상의 슬라이스로부터 온 비디오 데이터는 인코더에 의해 픽처로부터 코딩될 수 있으며 디코더에서 디코딩되어 상기 픽처를 복원할 수 있다.

슬라이스(125)는 픽처의 연속적인 완전한 코딩 트리 유닛(CTU) 행들(가령, 타일 내)의 정수개의 수 또는 완전한 타일들의 정수개의 수로 정의되며, 여기서 상기 타일들 또는 CTU 행들은 단일 NAL 유닛에 배타적으로 포함된다. 이로 인해, 슬라이스(125) 또한 단일 NAL 유닛에 포함된다. 슬라이스들(125)은 각각 CTU들 및/또는 코딩 트리 블록들(CTBs)로 더 분할된다. CTU는 코딩 트리로 분할될 수 있는 기정의된 크기의 샘플들의 그룹이다. CTB는 CTU의 서브세트이며 상기 CTU의 루마 성분들 또는 크로마 성분들을 포함한다. CTU들/CTB들은 코딩 트리들에 기반하여 코딩 블록들로 더 분할된다. 그리고 나서, 코딩 블록들은 예측 메커니즘들에 따라 인코딩/디코딩 될 수 있다.

비트스트림(100)은 하나 이상의 SEI 메시지들을 포함할 수 있다. SEI 메시지는 디코딩된 픽처들 내의 샘플들의 값들을 결정하기 위해 디코딩 과정에 의해 필요하지 않은 정보를 전달하는 규정된 시맨틱스를 가지는 신택스 구조이다. 비트스트림(100)은 상이한 기능성을 위한 여러 상이한 SEI 메시지들을 포함할 수 있다. 본 예에서, 비트스트림은 AR SEI 메시지(131), DRI SEI 메시지(133), 그리고 EDRAP 표시 SEI 메시지(135)를 포함한다.

AR SEI 메시지(131)는 바운딩 박스들을 채용하여 하나 이상의 픽처들 내의 주석 영역들을 식별하기 위한 파라미터들을 나르는 SEI 메시지이다. 상기 바운딩 박스들은 주석 영역의 크기 및 위치를 나타내고 상기 주석 영역에 포함된 하나 이상의 대상들을 식별한다. 따라서, AR SEI 메시지(131)는 픽처들 내의 영역들을 기술하는 메타데이터를 포함한다. 디코더는 AR SEI 메시지(131)를 사용하여 디코딩할지 여부 및/또는 디스플레이 과정 동안 그러한 영역들을 어떻게 취급할지를 결정할 수 있다. AR SEI 메시지(131)는 ar_object_label_idx[ar_object_idx[i]](141) 신택스 요소를 포함한다. 상기 ar_object_label_idx[ar_object_idx[i]](141)은 i번째 색인된 AR 대상(ar_object_idx[i] 번째)에 해당하는 레이블의 인덱스를 지시한다. 예를 들어, AR 대상들이 색인을 달고, 임의의 i번째 AR 대상은 ar_object_idx[i]에 의해 결정될 수 있다. 더 나아가, AR 대상 레이블들이 색인을 달고, 임의의 i번째 AR 대상 레이블은 ar_object_label_idx[i]에 의해 결정될 수 있다. 그 자체로, AR SEI ar_object_label_idx[ar_object_idx[i]](141)은 i번째 AR 대상의 레이블의 인덱스를 획득한다.

DRI SEI 메시지(133)는 삼차원(3D) 디스플레이 상의 재생을 위한 깊이 및/또는 변이 정보를 포함하는 픽처들을 위한 파라미터들을 운반하는 SEI 메시지이다. 깊이는 3D 공간 내 픽셀/샘플의 위치이다. 변이는 영상 평면에서 두 특성들(가령, 두 픽셀들)의 위치들 간의 변위이다. DRI SEI 메시지(133)는 depth_nonlinear_representation_model[i](142) 신택스 요소, depth_nonlinear_representation_num_minus1(143) 신택스 요소, depth_representation_type(144) 신택스 요소, 그리고 disparity_ref_view_id(145) 신택스 요소를 포함한다. depth_nonlinear_representation_model[i](142)는 보조 픽처의 디코딩된 루마 샘플 값들(가령, 깊이 값들)을 변이의 측면에서 획일적으로 양자화된 스케일에 매칭시키기 위한 i 구간 선형 세그먼트들의 각각을 명시한다. depth_nonlinear_representation_num_minus1(143) plus two는 깊이 값들을 변이의 측면에서 획일적으로 양자화된 스케일에 매칭시키기 위한 구간 선형 세그먼트들의 수를 명시한다. 따라서, depth_nonlinear_representation_num_minus1(143) plus two는 depth_nonlinear_representation_model[i](142)에서 i 세그먼트들의 수를 명시한다. depth_representation_type(144)는 보조 픽처들의 디코딩된 루마 샘플들의 표현 정의를 명시한다. depth_representation_type(144)에 대해 허용가능한 값들 및 각 값에 해당하는 해석은 상기 표 1 및/또는 아래 표 Y1에 포함되어 있다. disparity_ref_view_id(145)는 뷰 식별자(ViewId) 값을 명시하며, 이것에 대해 변이 값들이 도출된다. 따라서, disparity_ref_view_id(145)는 보조 픽처에서 샘플들에 대한 변이(가령, 위치들 사이의 변위 및/또는 차이)를 판단할 때 기준으로 사용되는 ViewId 값을 지시한다.

EDRARP 표시 SEI 메시지(135)는 EDRAP 픽처들의 사용을 지시한다. EDRAR 픽처는 하나 이상의 참조 픽처들에 기반하여 인터 예측으로 코딩되는 랜덤 액세스 픽처이다. 예를 들어, EDRAP 픽처는 선행 EDRAP 픽처 및/또는 선행 IRAP 픽처를 참조하여 코딩될 수 있다. IRAP 픽처는 인트라 예측에 의해 코딩되며 다른 픽처들을 참조하지 않고 디코딩될 수 있다. EDRAP 방식들은 EDRAP 픽처들 각각에 대한 참조 픽처들의 시간설정 세트를 포함하는 외부 비트스트림을 채용할 수 있다. 이렇게 해서, EDRAP 픽처는 메인 비트스트림으로의 랜덤 액세스를 위해 선택될 수 있으며, 상기 EDRAP 픽처를 디코딩하는 데에 사용되는 참조 픽처들은 상기 외부 비트스트림으로부터 획득될 수 있다. EDRAP 표시 SEI 메시지(135)는 디코더가 랜덤 액세스를 위해 임의의 EDRAP 픽처를 선택하여 오직 해당 참조 픽처(가령, 외부 비트스트림 내의)만을 사용하여 상기 선택된 EDRAP 픽처를 성공적으로 디코딩할 수 있도록 하기 위해 사용되는 픽처 순서 및 픽처 참조에 대한 제약들을 지시한다. EDRAP 표시 SEI 메시지(135)는 edrap_leading_pictures_decodable_flag(146) 신택스 요소를 포함하며, 이는 배치 제약들의 세트가 EDRAP 표시 SEI 메시지(135)에 해당하는 EDRAP 픽처에 적용되는지 여부를 지시하는 값을 포함한다.

EDRAP 표시 SEI 메시지(135)의 존재는 비트스트림에서 EDRAP 픽처 순서에 대한 특정한 제약들을 부과한다. 예를 들어, 각 EDRAP 픽처는 트레일링 픽처이다. 더 나아가, 각 EDRAP 픽처는 0과 같은 시간적 서브 계층 식별자를 가진다. 시간적 서브계층들은 픽처들을 기본 계층 및 하나 이상의 향상 계층들로 분할한다. 낮은 능력의 디코더는 낮은 프레임 레이트를 위해 상기 기본 계층을 디코딩하고 디스플레이할 수 있는 반면, 더 큰 능력의 디코더는 더 많은 수의 향상 계층을 디코딩하여 더 큰 프레임 레이트들을 획득할 수 있다. 시간적 서브계층 식별자를 제로(0)으로 제한함으로써 EDRAP 픽처는 상기 기본 계층에 있게 되어 그리하여 모든 디코더에 의해 사용가능하게 된다. 다른 제약이 요구하는 것은 각 EDRAP 픽처가 참조가능한 픽처들의 리스트를 제외한 상기 EDRAP 픽처의 참조 픽처 리스트의 활성 엔트리들에 동일 계층의 어떤 픽처도 포함하지 않아야 한다는 것이다. 상기 참조가능 픽처들의 리스트는 IRAP 및/또는 EDRAP 픽처들을 디코딩 순서로 포함한다. 따라서, 이러한 제약은 EDRAP 픽처들이 오직 선행 IRAP 및 EDRAP 픽처들만을 참조하도록 제한한다. 하지만 다른 제약이 요구하는 것은 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서와 출력 순서 모두에서 상기 EDRAP 픽처에 뒤따르는 임의의 픽처가, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들에, 참조가능한 픽처들의 리스트를 제외하고, 동일한 계층에 있으며 디코딩 순서 또는 출력 순서에서 EDRAP 픽처에 선행하는 어떠한 다른 픽처도 포함하지 않아야 한다는 것이다. 이러한 제약은 상기 EDRAP 픽처를 뒤따르는 픽처들이 상기 EDRAP 픽처에 선행하는 픽처들을 참조하지 못하도록 한다. 상기 EDRAP 픽처에서의 랜덤 액세스의 경우, 상기 선행 픽처들은 가용하지 않을 것이며, 그리하여 뒤따르는 픽처가 이러한 픽처들을 참조하는 것의 결과는 가용하지 않은 참조 픽처들로 인한 오류일 것이다.

edrap_leading_pictures_decodable_flag(146) 신택스 요소는 EDRAP 픽처에 대한 추가적인 제약들을 부과할 수 있다. 이러한 추가적인 제약들 중 첫 번째가 명시하는 것은, EDRAP 픽처와 동일 계층에 있으며 디코딩 순서에서 상기 EDRAP 픽처를 뒤따르는 임의의 픽처가 상기 EDRAP 픽처와 동일 계층에 있으면서 디코딩 순서에서 상기 EDRAP 픽처에 선행하는 임의의 다른 픽처를 출력 순서에서 뒤따라야 한다는 것이다. 일부 예에서, 코딩 순서와 출력 순서는 상이하다. 이것은 일부 경우에서 더 나은 출력을 허용하지만, 픽처들이 디스플레이에 앞서 재배열되어야 함을 요구한다. 디코딩 순서에서 랜덤 액세스를 뒤따르며 출력 순서에서 상기 랜덤 액세스에 선행하는 픽처들은 리딩 픽처들로 알려진다. 이러한 제약은 EDRAP 픽처의 리딩 픽처들이 출력 순서에서 선행 EDRAP 픽처에서부터 뒤따르는 픽처들 앞에 위치하지 않도록 한다.

이러한 추가적인 제약들 중 두 번째가 명시하는 것은, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르며 출력 순서 상 상기 EDRAP 픽처에 선행하는 임의의 픽처가, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서에서 상기 EDRAP 픽처에 선행하는 어떠한 다른 픽처도 포함하지 않아야 한다는 것이다. 이러한 제약은 리딩 픽처들이 상기 EDRAP 픽처를 뒤따르는 픽처들 및 참조 가능한 픽처들의 리스트 내의 IRAP 및/또는 EDRAP 픽처들을 오직 참조하도록 한다. 이는 해당 EDRAP 픽처가 랜덤 액세스를 위해 사용될 때 상기 리딩 픽처들이 디코딩될 수 있도록 한다.

위에서 언급되었듯이, 값 범위들, 기술어들 및/또는 ar_object_label_idx[ar_object_idx[i]](141), depth_nonlinear_representation_model[i](142), depth_nonlinear_representation_num_minus1(143), depth_representation_type(144), disparity_ref_view_id(145), 그리고 edrap_leading_pictures_decodable_flag(146)의 시맨틱스는 일부 예시적 시스템들에서는 명시되지 않는다. 그 자체로, 본 개시는 그러한 값 범위들, 기술어들 및/또는 선행 파라미터들/신택스 요소들을 위한 시맨틱스를 포함한다. 이것은 디코더로 하여금 작은 결함 및/또는 고장과 같이 확실하지 않은 거동을 경험하지 않고서 이러한 값들을 정확하게 해석할 수 있도록 한다.

유의해야 할 것으로, ar_object_label_idx[ar_object_idx[i]](141), depth_nonlinear_representation_model[i](142), depth_nonlinear_representation_num_minus1(143), depth_representation_type(144), disparity_ref_view_id(145), 그리고 edrap_leading_pictures_decodable_flag(146)은 해당 신택스 요소를 코딩하는 데에 사용되는 코딩 메커니즘을 지시하는 기술어와 연관될 수 있다는 것이다. 이러한 기술어들은 ue(v), u(N), se(v) 및 u(v)를 포함할 수 있다. ue(v)는 신택스 요소 값이 좌측 비트 우선에 가변적인 비트 수를 가지는 무부호 정수 지수 골롬 코딩된 신택스 요소(unsigned integer exponential-Golomb coded　syntax element)로 코딩됨을 지시한다. 지수 골롬 코드 신택스는 값을 플러스 원 이진수로 표현하는 것과 리딩 제로들을 마이너스 원 포맷의 리딩 값으로 표현하는 것을 포함한다. u(N)은 신택스 요소가 N비트를 사용하여 무부호 정수로 코딩된다고 지시한다. se(v)는 신택스 요소 값이 좌측 비트 우선에 가변적인 비트 수를 가지는 부호를 지닌 정수 지수 골롬 코딩된 신택스 요소로 코딩됨을 지시한다. u(v)는 신택스 요소 값이 가변적인 비트 수를 사용하여 무부호 정수로 코딩됨을 지시한다.

상기 문제들 및 기타 문제들을 해결하기 위해, 아래에 요약되는 방법들이 개시된다. 항목들은 일반적인 개념들을 설명하기 위한 예시들로 간주되어야 하며, 협소한 방식으로 해석되어서는 안 된다. 더 나아가, 이 항목들은 개별적으로 또는 임의의 방식으로 결합되어 적용될 수 있다.

예시 1

일 예에서, 위에 열거된 문제들 중 적어도 하나를 해결하기 위해, ar_object_label_idx[ar_object_idx[i]](141) 신택스 요소의 값은 N 내지 M의 범위(경계값 포함)에 있는 것으로 명시되며, 이때 N 및 M은 정수 값이며, N은 M 보다 작다. 일 예에서, ar_object_label_idx[ar_object_idx[i]](141)의 값은 0 내지 3(경계값 포함), 0 내지 7(경계값 포함), 0 내지 15(경계값 포함), 0 내지 31(경계값 포함), 0 내지 63(경계값 포함) 등과 같이 상이한 범위에 있는 것으로 명시된다.

예시 2

일 예에서, 위에 열거된 문제들 중 적어도 하나를 해결하기 위해, depth_nonlinear_representation_model[i](142) 신택스 요소는 ue(v) 코딩되는 것으로 명시된다.

예시 3

일 예에서, depth_nonlinear_representation_model[i](142)의 값은 N 내지 M의 범위, 가령, N=0 및 M=65535(경계값 포함) 내에 있다고 명시된다. 일 예에서, depth_nonlinear_representation_model[i](142)의 값은 0 내지 3(경계값 포함), 0 내지 7(경계값 포함), 0 내지 15(경계값 포함), 0 내지 31(경계값 포함), 0 내지 63(경계값 포함), 0 내지 127(경계값 포함), 0 내지 255(경계값 포함), 0 내지 511(경계값 포함), 0 내지 1023(경계값 포함), 0 내지 2047(경계값 포함), 0 내지 4095(경계값 포함), 0 내지 8191(경계값 포함), 0 내지 16383(경계값 포함) 등과 같이 상이한 범위에 있는 것으로 명시된다.

예시 4

일 예에서, depth_nonlinear_representation_model[i](142)는 다른 코딩 방법을 사용하여 코딩되는 것으로 명시된다. 일 예에서, depth_nonlinear_representation_model[i](142) 신택스 요소는 u(N) 코딩되는 것으로 명시되며, N은 양의 정수 값, 예를 들어, 2 내지 16의 범위(경계값 포함) 내의 값과 같다. 다른 예에서, depth_nonlinear_representation_model[i](142) 신택스 요소는 se(v) 코딩되는 것으로 명시된다. 다른 예에서, depth_nonlinear_representation_model[i](142) 신택스 요소는 u(v) 코딩되는 것으로 명시되고, 비트 단위 길이는 예를 들어 Log2(MaxNumModes)와 같은 것으로 명시되며, 변수 MaxNumMode는 모드의 최대 수를 지시하고, 함수 Log2(x)는 2를 밑으로 하는 x의 로그를 리턴한다.

예시 5

일 예에서, depth_nonlinear_representation_num_minus1(143) 신택스 요소는, 예를 들어, u(N), u(v) 등과 같은, ue(v) 코딩 방법과 다른 코딩 방법을 사용하여 코딩된다고 명시된다.

예시 6

일 예에서, 위에 열거된 문제들 중 적어도 하나를 해결하기 위해, depth_representation_type(144)의 값은 N 내지 M의 범위(경계값 포함)에 있는 것으로 명시되며, 이때 N 및 M은 정수 값이며, N은 M 보다 작다. 일 예에서, N=0 및 M=15이다. 일 예에서, depth_representation_type(144)의 값은 0 내지 3(경계값 포함), 0 내지 7(경계값 포함), 0 내지 31(경계값 포함), 0 내지 63(경계값 포함), 0 내지 127(경계값 포함), 0 내지 255(경계값 포함) 등과 같이 상이한 범위에 있는 것으로 명시된다.

예시 7

일 예에서, 위에 열거된 문제들 중 적어도 하나를 해결하기 위해, depth_nonlinear_representation_num_minus1(143)의 값은 0 내지 62의 범위(경계값 포함) 내에 있는 것으로 명시된다. 일 예에서, depth_nonlinear_representation_num_minus1(143)의 값은 0 내지 6(경계값 포함), 0 내지 14(경계값 포함), 0 내지 30(경계값 포함), 0 내지 126(경계값 포함), 0 내지 254(경계값 포함) 등과 같이 상이한 범위에 있는 것으로 명시된다.

예시 8

일 예에서, 위에 열거된 문제들 중 적어도 하나를 해결하기 위해, disparity_ref_view_id(145)의 값은 0 내지 1023의 범위(경계값 포함) 내에 있는 것으로 명시된다. 일 예에서, disparity_ref_view_id(145)의 값은 0 내지 63(경계값 포함), 0 내지 127(경계값 포함), 0 내지 255(경계값 포함), 0 내지 511(경계값 포함), 0 내지 2047(경계값 포함), 0 내지 4095(경계값 포함), 0 내지 8191(경계값 포함), 0 내지 16383(경계값 포함), 0 내지 32767(경계값 포함), 0 내지 65535(경계값 포함) 등과 같이 상이한 범위에 있는 것으로 명시된다.

예시 9

일 예에서, 위에 열거된 문제들 중 적어도 하나를 해결하기 위해, edrap_leading_pictures_decodable_flag(146)의 시맨틱스는 다음과 같이 명시된다. 1과 같은 edrap_leading_pictures_decodable_flag(146)은 다음 제약들 모두가 적용된다고 명시한다. 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르는 임의의 픽처는 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 임의의 픽처에 출력 순서 상 뒤따라야 한다. 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르며 출력 순서 상으로는 EDRAP 픽처에 선행하는 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 참조가능한 픽처들을 제외하고, 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않아야 한다. 0과 같은 edrap_leading_pictures_decodable_flag(146)는 이러한 제약들을 부과하지 않는다.

선행 예시들의 실시예가 이제 설명된다. 본 실시예는 VSEI에 적용될 수 있다. VSEI 사양에 대해, 추가되거나 수정된 대부분의 관련 부분들은 굵은 글씨체에 밑줄로 표시되었으며, 일부 삭제된 부분들은 굵은 이탤릭체로 표시되었다. 편집상의 기타 일부 변경들이 있을 수 있을 수 있으며, 이것들은 강조되지 않았다.

예시적인 주석 영역 SEI 메시지 시맨틱스는 다음과 같다. 주석 영역 SEI 메시지는 식별된 대상들의 크기와 위치를 표시하는 바운딩 박스를 사용하여 주석 영역들을 식별하는 파라미터들을 전달한다.

...

ar_object_label_idx[ar_object_idx[i]]는 ar_object_idx[i] 번째 대상에 해당하는 레이블의 인덱스를 지시한다. ar_object_label_idx[ar_object_idx[i]]가 존재하지 않는 경우, 그것의 값은 동일한 CVS 내에서 출력 순서 상 선행하는 주석 영역 SEI 메시지가 있다면 그것으로부터 추론된다. ar_object_label_idx[ar_object_idx[i]]의 값은 0 내지 255의 범위(경계값 포함) 내에 있어야 한다.

...

깊이 표현 정보 SEI 메시지 신택스

예시적인 깊이 표현 정보 SEI 메시지 시맨틱스는 다음과 같다. 깊이 표현 정보(depth representation information, DRI) SEI 메시지의 신택스 요소들은 뷰 합성과 같은 3차원(3D) 디스플레이 상에 제공하기에 앞서 디코딩된 일차 및 보조 픽처들을 처리할 목적으로 AUX_DEPTH 유형의 보조 픽처들에 대한 다양한 파라미터들을 명시한다. 구체적으로, 깊이 픽처들에 대한 깊이 또는 변이 범위들이 명시된다.

...

depth_representation_type은 표 Y1에 명시된 것과 같은 보조 픽처들의 디코딩된 루마 샘플들의 표현 정의를 명시한다. 표 Y1에서, 변이는 두 개의 텍스처 뷰 간의 수평 변위를 명시하며, Z 값은 카메라로부터의 거리를 명시한다. depth_representation_type의 값은 0 내지 15의 범위(경계값 포함) 내에 있어야 한다. 변수 maxVal은 (1 << BitDepthY) - 1과 같게 설정된다.

표 Y1 - depth_representation_type의 정의 (아래 표 2 로 개시됨)

disparity_ref_view_id는 ViewId 값을 명시하며, 이것에 대해 변이값들이 도출된다. disparity_ref_view_id의 값은 0 내지 1023의 범위(경계값 포함) 내에 있어야 한다. disparity_ref_view_id는 오직 d_min_flag가 1과 같거나 d_max_flag가 1과 같은 경우에만 존재하며, 1 및 3과 같은 depth_representation_type 값들에 대해 유용하다. 표 Y2에서 x열의 변수들은 아래와 같이 표 Y2의 s, e, n 및 v 열의 각 변수들로부터 도출된다. 만약 e의 값이 0 내지 127의 범위(경계값 미포함)에 있다면, x는 ( -1 )^s* 2e - 31 * ( 1 + n 2^v )와 같게 설정된다. 그 외의 경우 (e가 0과 같다), x는 ( -1 )^s* 2-( 30 + v ) * n과 같게 설정된다.

표 Y2 - 깊이 파라미터 변수와 신택스 요소간의 연관

DMin 및 DMax 값들이 존재하는 경우 보조 픽처의 ViewId와 같은 ViewId를 가지는 코딩된 픽처의 루마 샘플 폭의 단위로 명시된다. ZNear 및 ZFar 값들에 대한 단위들은 그것들이 존재하는 경우 동일하지만 명시되지 않는다.

depth_nonlinear_representation_num_minus1 plus 2는 깊이 값을 변이의 측면에서 균등하게 양자화된 스케일로 매핑하기 위한 피스 단위 선형 세그먼트들의 수를 명시한다. depth_nonlinear_representation_num_minus1의 값은 0 내지 62의 범위(경계값 포함) 내에 있어야 한다. i가 0 내지 depth_nonlinear_representation_num_minus1+2의 범위에 있는(경계값 포함) depth_nonlinear_represenation_model[i]은 보조 픽처의 디코딩된 루마 샘플 값을 변이 측면에서 균등하게 양자화된 스케일로 매핑하기 위한 피스 단위 선형 세그먼트들을 명시한다. depth_nonlinear_represenation_model[i]의 값은 0 내지 65535의 범위(경계값 포함) 내에 있어야 한다. depth_nonlinear_represenation_model[0] 및 depth_nonlinear_represenation_model[ depth_nonlinear_representation_num_minus1+2 ]의 값들은 모두 0과 같은 것으로 추론된다.

...

예시적인 확장된 DRAP 표시 SEI 메시지 시맨틱스는 다음과 같다. 확장된 DRAP(EDRAP) 표시 SEI 메시지와 연관된 픽처는 EDRAP 픽처로 불린다. EDRAP 표시 SEI 메시지의 존재는 본 하위조항에서 명시되는 픽처 순서 및 픽처 참조에 대한 제약들이 적용된다는 것을 지시한다. 이러한 제약들은 디코더로 하여금 EDRAP 픽처 및 그것을 디코딩 순서와 출력 순서 모두에서 뒤따르고 동일한 계층에 있는 픽처들을 적절하게 디코딩하고 픽처들의 리스트를, 참조 가능한 픽처들(referenceablePictures), 제외한 동일 계층 내 다른 어떤 픽처들도 디코딩 할 필요가 없도록 할 수 있다. 이것은 동일한 CLVS 내에 있으며 edrap_ref_rap_id[i] 신택스 요소들에 의해 식별되는 IRAP 또는 EDRAP 픽처들의 디코딩 순서 상의 리스트를 포함한다.

EDRAP 표시 SEI 메시지의 존재에 의해 지시되고, 적용되어야 하는 제약들은 다음과 같다. EDRAP 픽처는 트레일링 픽처이다. EDRAP 픽처는 0과 동일한 시간 서브계층 식별자를 갖는다. EDRAP 픽처는 참조 가능한 픽처들(referenceablePictures)을 제외하고 그것의 참조 픽처 리스트들의 활성 엔트리들에 있는 동일 계층의 어떤 픽처도 포함하지 않는다. 디코딩 순서와 출력 순서 둘 모두에서 EDRAP 픽처를 뒤따르며 동일 계층에 있는 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 참조 가능한 픽처들(referenceablePictures)을 제외하고, 동일한 계층에 있고 디코딩 순서 또는 출력 순서에서 EDRAP 픽처에 선행하는 어떠한 픽처도 포함하지 않는다.

edrap_leading_pictures_decodable_flag가 1과 같은 경우, 다음이 적용된다. 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르는 임의의 픽처는 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 임의의 픽처에 출력 순서 상 뒤따라야 한다. 동일한 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르며 출력 순서 상 EDRAP 픽처에 선행하는 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 참조 가능한 픽처들(referenceablePictures)을 제외하고, 동일 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않는다.

참조 가능한 픽처들(referenceablePictures) 리스트 내의 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 동일 계층에 있지만 참조 가능한 픽처들(referenceablePictures) 리스트에서 앞선 위치에 있는 픽처는 아닌 어떤 픽처도 포함하지 않는다. 결과적으로, 참조 가능한 픽처들(referenceablePictures) 내의 첫 번째 픽처는, 그것이 IRAP 픽처가 아니라 EDRAP 픽처인 경우에도, 그것의 참조 픽처 리스트들의 활성 엔트리들에 동일한 계층의 어떤 픽처도 포함하지 않는다.

edrap_rap_id_minus1 plus 1은, RapPicId로 표기되는, EDRAP 픽처의 랜덤 액세스 포인트(RAP) 픽처 식별자를 명시한다. 각각의 IRAP 또는 EDRAP 픽처는 RapPicId 값과 연관된다. IRAP 픽처에 대한 RapPicId 값은 0과 같다고 추론된다. 동일한 IRAP 픽처와 연관된 임의의 두 EDRAP 픽처들에 대한 RapPicId 값들은 상이해야 한다.

1과 같은 edrap_leading_pictures_decodable_flag는 다음 두 제약이 모두 적용됨을 명시한다. 동일 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르는 임의의 픽처는 동일 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 임의의 픽처를 출력 순서 상 뒤따라야 한다. 동일 계층에 있으며 디코딩 순서 상 EDRAP 픽처를 뒤따르고 출력 순서 상 EDRAP 픽처에 선행하는 임의의 픽처는, 그것의 참조 픽처 리스트들의 활성 엔트리들에, 참조 가능한 픽처들(referencablePictures)을 제외하고, 동일 계층에 있으며 디코딩 순서 상 EDRAP 픽처에 선행하는 어떤 픽처도 포함해서는 안 된다. 0과 같은 edrap_leading_pictures_decodable_flag 이러한 제약들을 부과하지 않는다.

edrap_reserved_zero_12bits는 본 개시에 부합하도록 비트스트림들에서 0과 같아야 한다. edrap_reserved_zero_12bits에 대한 다른 값들은 유보된다. 디코더들은 edrap_reserved_zero_12bits의 값을 무시해야 한다. edrap_num_ref_rap_pics_minus1 plus1은 EDRAP 픽처와 같은 CLVS내에 있으며 EDRAP 픽처의 참조 픽처 리스트들의 활성 엔트리들에 포함될 수 있는 IRAP 또는 EDRAP 픽처들의 수를 지시한다. edrap_ref_rap_id[i]는 EDRAP 픽처의 참조 픽처 리스트들의 활성 엔트리들에 포함될 수 있는 i번째 RAP 픽처의 RapPicId를 지시한다. i번째 RAP 픽처는 현재 EDRAP 픽처와 연관된 IRAP 픽처이거나 현재 EDRAP 픽처와 동일한 IRAP 픽처와 연관된 EDRAP 픽처여야 한다.

...

도 2는 본원에 개시된 다양한 기술들이 구현될 수 있는 예시적인 비디오 처리 시스템(4000)을 보여주는 블록도이다. 다양한 구현들은 시스템(4000)의 일부 또는 전체 구성요소들을 포함할 수 있다. 시스템(4000)은 비디오 콘텐트를 수신하기 위한 입력(4002)을 포함할 수 있다. 상기 비디오 콘텐트는 8 또는 10 비트 다중 구성요소 픽셀 값들과 같은 로(raw) 또는 비압축 포맷으로 수신될 수 있거나 또는 압축 또는 인코딩된 포맷으로 수신될 수 있다. 입력(4002)은 네트워크 인터페이스, 주변 버스 인터페이스 또는 스토리지 인터페이스를 표시할 수 있다. 네트워크 인터페이스의 예들은 이더넷, 수동 광학 네트워크 (PON: passive optical network) 등과 같은 유선 인터페이스들 및 와이파이 또는 셀룰러 인터페이스들과 같은 무선 인터페이스들을 포함할 수 있다.

시스템(4000)은 본 문서에 기술된 다양한 코딩 또는 인코딩 방법들을 구현할 수 있는 코딩 구성요소(4004)를 포함할 수 있다. 코딩 구성요소(4004)는 상기 비디오의 코딩된 표현을 산출하기 위해 코딩 구성요소(4004)의 입력(4002)으로부터 출력까지의 비디오의 평균 비트레이트를 감소시킬 수 있다. 따라서, 코딩 기술들은 종종 비디오 압축 또는 비디오 트랜스코딩 기술로 불린다. 코딩 구성요소(4004)의 출력은 구성요소(4006)에 의해 표현되는 것처럼, 저장되거나 또는 연결된 통신을 통해 전송될 수 있다. 입력(4002)에서 수신된 상기 비디오의 저장되거나 통신된 (또는 코딩된) 비트스트림 표현은 구성요소(4008)에 의해 사용되어 픽셀 값들을 생성하거나 또는 디스플레이 인터페이스(4010)에 전송되는 디스플레이 가능한 비디오를 생성할 수 있다. 상기 비트스트림 표현으로부터 사용자가 시청가능한 비디오를 생성하는 과정은 종종 비디오 압축해제라 불린다. 더 나아가, 특정 비디오 처리 동작들이 "코딩” 동작 또는 툴로 불리는 반면, 상기 코딩 툴 또는 동작들은 인코더 측에서 사용되며 상기 코딩의 결과들을 반전시키는 대응하는 디코딩 툴 또는 동작들은 디코더가 실시할 것이라는 것이 이해될 것이다.

주변 버스 인터페이스 또는 디스플레이 인터페이스의 예들은 범용 직렬 버스(universal serial bus (USB)) 또는 고해상도 멀티미디어 인터페이스 (high definition multimedia interface (HDMI)) 또는 디스플레이포트 등을 포함할 수 있다. 스토리지 인터페이스의 예들은 SATA(직렬 고급 기술 연결), 주변장치 구성요소 상호연결(Peripheral Component Interconnect, PCI), 통합 드라이브 전자장치(Integrated Drive Electronics, IDE) 인터페이스 등을 포함한다. 본 문서에서 설명되는 기술들은 이동 전화, 노트북, 스마트폰, 또는 디지털 데이터 처리 및/또는 비디오 디스플레이를 실행할 수 있는 기타 디바이스들과 같은 다양한 전자 디바이스들에서 구현될 수 있다.

도 3은 예시적인 비디오 처리 장치(4100)의 블록도이다. 장치(4100)는 본 명세서에서 개시되는 하나 이상의 방법들을 실시하는 데에 사용될 수 있다. 장치(4100)는 스마트폰, 태블릿, 컴퓨터, 사물인터넷(IoT) 수신기 등에서 구현될 수 있다. 장치(4100)는 하나 이상의 프로세서들(4102), 하나 이상의 메모리들(4104), 그리고 비디오 처리 회로(4106)를 포함할 수 있다. 프로세서(들)(4102)은 본 문서에서 개시되는 하나 이상의 방법들을 실시하도록 구성될 수 있다. 메모리(메모리들)(4104)은 여기에서 개시된 방법들 및 기술들을 실시하는 데에 사용되는 데이터 및 코드를 저장하는 데에 사용될 수 있다. 비디오 처리 회로(4106)는 본 문서에서 개시되는 일부 기술들을 하드웨어 회로에서 실행할 수 있다. 일부 실시예들에서, 비디오 처리 회로(4106)는 예를 들어 그래픽 코프로세서와 같은 프로세서(4102)에 적어도 부분적으로 포함될 수 있다.

도 4는 비디오 처리의 예시적인 방법(4200)에 대한 순서도이다. 방법(4200)은. 확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계 4202를 포함한다. 상기 비트스트림은 적어도 하나 이상의 EDRAP 픽처를 포함한다. 일 예로서, 상기 edrap_leading_pictures_decodable_flag의 값은 순서 제약이 상기 EDRAP 픽처에 부여되는지 여부를 지시한다. 상기 edrap_leading_pictures_decodable_flag의 값이 0 이면, 상기 순서 제약이 상기 EDRAP 픽처에 부여되지 않을 수 있다. 상기 edrap_leading_pictures_decodable_flag의 값이 1 이면, 상기 순서 제약이 상기 EDRAP 픽처에 부여될 수 있다. 상기 제약은 상기 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르는 임의의 픽처는, 상기 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 선행하는 임의의 픽처를 출력 순서 상 뒤따라야 함을 명시할 수 있다. 상기 제약은 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르며 출력 순서 상 상기 EDRAP 픽처에 선행하는 임의의 픽처는, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들(active entries)에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않음을 더 명시할 수 있다.

일 예로서, 상기 edrap_leading_pictures_decodable_flag 신택스 요소는 EDRAP SEI 메시지내에 포함된다. 일 예로서, 상기 참조 가능한 픽처들의 리스트는, 동일한 코딩된 계층 비디오 시퀀스(CLVS) 내 디코딩 순서 상 IRAP 또는 EDRAP 픽처들을 포함한다. 일 예로서, 상기 참조 가능한 픽처들의 리스트내 각 픽처는 i번째 EDRAP 참조 액세스 포인트 식별자 (edrap_ref_rap_id[　i　]) 신택스 요소에 의해 식별될 수 있다. 일 예로서, 상기 edrap_leading_pictures_decodable_flag 신택스 요소는 u(v)로 코딩될 수 있다.

일 예로서, 상기 EDRAP SEI 메시지는 추가적인 제약을 명시한다. 일 예로서, 상기 추가적인 제약은 각 EDRAP 픽처는 트레일링 픽처(trailing picture)임을 포함한다. 일 예로서, 상기 추가적인 제약은 각 EDRAP 픽처는 0과 동일한 시간 서브계층 식별자를 가짐을 포함한다. 일 예로서, 상기 추가적인 제약은 각 EDRAP 픽처는 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처들의 참조 픽처 리스트의 활성 엔트리들내 동일 계층의 어떤 픽처도 포함하지 않음을 포함한다. 일 예로서, 상기 추가적인 제약은 상기 비트스트림은 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 및 출력 순서 상 모두 상기 EDRAP 픽처를 뒤따르는 임의의 픽처는, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 또는 출력 순서 상 상기 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않음으로 제한됨을 포함한다.

단계 4204에서, 상기 edrap_leading_pictures_decodable_flag 신택스 요소에 기반하여 시각 미디어 데이터와 비트스트림 간의 변환이 실시된다. 상기 방법 4200이 인코더에서 수행되는 경우, 상기 변환은 상기 시각 미디어 데이터를 상기 비트스트림으로 인코딩하는 것을 포함한다, 상기 방법 4200이 디코더에서 수행되는 경우, 상기 변환은 상기 비트스트림으로부터 상기 시각 미디어 데이터를 디코딩 하는 것을 포함한다.

상기 방법(4200)은 프로세서 및 명령어들을 저장하는 비일시적인 메모리를 포함하는, 비디오 데이터를 처리하기 위한 장치, 예를 들어, 비디오 인코더(4400), 비디오 디코더(4500) 및/또는 인코더(4600)에서 구현될 수 있다. 이러한 경우에, 상기 명령어들은 상기 프로세서에 의해 실행 시에 상기 프로세서로 하여금 방법(4200)을 실시하도록 한다. 더 나아가, 방법(4200)은 비디오 코딩 디바이스에 의해 사용될 컴퓨터 프로그램 제품을 포함하는 비일시적인 컴퓨터 판독가능 매체에 의해 실시될 수 있다. 상기 컴퓨터 프로그램 제품은 상기 비일시적인 컴퓨터 판도가능 매체에 저장되는 컴퓨터에 의해 실행가능한 명령어들을 포함하여, 프로세서에 의해 실행 시에 상기 비디오 코딩 디바이스로 하여금 방법(4200)을 실시하도록 한다.

도 5는 본 개시의 기술들을 활용할 수 있는 예시적인 비디오 코딩 시스템(4300)을 도시하는 블록도이다. 비디오 코딩 시스템(4300)은 소스 디바이스(4310) 및 목적지 디바이스(4320)를 포함할 수 있다. 소스 디바이스(4310)는 인코딩된 비디오 데이터를 생성시키며, 비디오 인코딩 디바이스로 불릴 수 있다. 목적지 디바이스(4320)는 소스 디바이스(4310)에 의해 생성된 상기 인코딩된 비디오 데이터를 디코딩 할 수 있으며, 비디오 디코딩 디바이스로 불릴 수 있다.

소스 디바이스(4310)는 비디오 소스(4312), 비디오 인코더(4314) 및 입력/출력(I/O) 인터페이스(4316)를 포함할 수 있다. 비디오 소스(4312)는 비디오 캡처 디바이스, 비디오 콘텐트 제공기로부터 비디오 데이터를 수신하기 위한 인터페이스, 그리고/또는 비디오 데이터를 생성하기 위한 컴퓨터 그래픽 시스템과 같은 소스, 또는 이러한 소스들의 조합을 포함할 수 있다. 상기 비디오 데이터는 하나 이상의 픽처들을 포함할 수 있다. 비디오 인코더(4314)는 비디오 소스(4312)로부터의 상기 비디오 데이터를 인코딩하여 비트스트림을 생성한다. 상기 비트스트림은 상기 비디오 데이터의 코딩된 표현을 형성하는 비트들의 시퀀스를 포함할 수 있다. 상기 비트스트림은 코딩된 픽처들 및 연관된 데이터를 포함할 수 있다. 코딩된 픽처는 픽처의 코딩된 표현이다. 연관된 데이터는 시퀀스 파라미터 세트들, 픽처 파라미터 세트들 및 기타 신택스 구조들을 포함할 수 있다. I/O 인터페이스(4316)는 변조기/복조기 (모뎀) 및/또는 송신기를 포함할 수 있다. 인코딩된 비디오 데이터는 네트워크(4330)를 통해 I/O 인터페이스(4316)를 거쳐 목적지 디바이스(4320)로 직접 전송될 수 있다. 상기 인코딩된 비디오 데이터는 또한 목적지 디바이스(4320)에 의한 접근을 위해 저장 매체/서버(4340)에 저장될 수 있다.

목적지 디바이스(4320)는 I/O 인터페이스(4326), 비디오 디코더(4324) 및 디스플레이 디바이스(4322)를 포함할 수 있다. I/O 인터페이스(4326)는 수신기 및/또는 모뎀을 포함할 수 있다. I/O 인터페이스(4326)는 소스 디바이스(4310) 또는 저장 매체/서버(4340)로부터 인코딩된 비디오 데이터를 획득할 수 있다. 비디오 디코더(4324)는 상기 인코딩된 비디오 데이터를 디코딩할 수 있다. 디스플레이 디바이스(4322)는 상기 디코딩된 비디오 데이터를 사용자에게 보여줄 수 있다. 디스플레이 디바이스(4322)는 목적지 디바이스(4320)와 통합될 수 있거나 또는 외부 디스플레이 디바이스와 접속하도록 구성될 목적지 디바이스(4320)의 외부에 있을 수 있다.

비디오 인코더(4314) 및 비디오 디코더(4324)는 HEVC(고효율 비디오 코딩) 표준, VVC(다목적 비디오 코딩) 표준 및 기타 현행 및/또는 추가 표준들과 같은 비디오 압축 표준에 따라 작동할 수 있다.

도 6은 도 5에 도시된 시스템(4300) 내의 비디오 인코더(4314)일 수 있는 비디오 인코더(4400)의 일 예를 도시하는 블록도이다. 비디오 인코더(4400)는 본 개시의 기술들 중 어느 하나 또는 전부를 실시하도록 구성될 수 있다. 비디오 인코더(4400)는 복수의 기능적 구성요소들을 포함한다. 본 개시에서 설명되는 기술들은 비디오 인코더(4400)의 다양한 구성요소들 사이에 공유될 수 있다. 일부 예들에서, 프로세서는 본 개시에서 설명되는 기술들 중 어느 하나 또는 전부를 실시하도록 구성될 수 있다.

비디오 인코더(4400)의 기능적 구성요소들은 분할부(4401), 모드 선택부(4403), 모션 추정부(4404), 모션 보상부(4405) 및 인트라 예측부(4406)를 포함할 수 있는 예측부(4402), 잔차 생성부(4407), 변환부(4408), 양자화부(4409), 역양자화부(4410), 역변환부(4411), 복원부(4412), 버퍼(4413), 그리고 엔트로피 인코딩부(4414)를 포함할 수 있다.

다른 예들에서, 비디오 인코더(4400)는 더 많은 수의, 적은 수의 또는 상이한 기능적 구성요소들을 포함할 수 있다. 일 예에서, 예측부(4402)는 인트라 블록 카피(IBC) 유닛을 포함한다. 상기 IBC 유닛은 적어도 하나의 참조 픽처가 현재 비디오 블록이 위치하는 픽처인 IBC 모드로 예측을 수행할 수 있다.

더 나아가, 모션 추정부(4404) 및 모션 보상부(4405)와 같은 몇몇 구성요소들은 고도로 통합될 수 있지만, 설명의 목적을 위해 비디오 인코더(4400)의 예에서는 별도로 도시되었다.

분할부(4401)는 픽처를 하나 이상의 비디오 블록들로 분할할 수 있다. 비디오 인코더(4400) 및 비디오 디코더(4500)는 다양한 비디오 블록 크기들을 지원할 수 있다.

모드 선택부(4403)는 예를 들어 오류 결과들에 기반하여, 인터 또는 인트라 코딩 모드들 중 하나를 선택할 수 있으며, 그 결과로 인트라 또는 인터 코딩된 블록을 잔차 생성부(4407)에 제공하여 잔차 블록 데이터를 생성하도록 하고, 복원부(4412)에 제공하여 인코딩된 블록을 참조 픽처로 사용하기 위해 복원하도록 할 수 있다. 몇몇 예들에서, 모드 선택부(4403)는 예측이 인트라 예측 신호 및 인터 예측 신호에 기반하는 인트라 인터 결합 예측(CIIP) 모드를 선택할 수 있다. 모드 선택부(4403)는 또한 인터 예측의 경우 블록에 대한 모션 벡터를 위한 해상도(예를 들어, 서브 픽셀 또는 정수 픽셀 정밀도)를 선택할 수 있다.

현재 비디오 블록에 인터 예측을 실시하기 위해, 모션 추정부(4404)는 버퍼(4413)에서부터 상기 현재 비디오 블록까지 하나 이상의 참조 프레임들을 비교하여 상기 현재 비디오 블록에 대한 모션 정보를 생성할 수 있다. 모션 보상부(4405)는 상기 모션 정보 및 버퍼(4413)로부터 상기 현재 블록에 관련된 픽처가 아닌 픽처들의 디코딩된 샘플들에 기반하여 상기 현재 비디오에 대한 예측 비디오 블록을 결정할 수 있다.

모션 추정부(4404) 및 모션 보상부(4405)는 현재 비디오 블록에 대해, 예를 들어 상기 현재 비디오 블록이 I 슬라이스, P 슬라이스 또는 B 슬라이스에 있는지 여부에 의존하여, 상이한 동작들을 실시할 수 있다.

일부 예들에서, 모션 추정부(4404)는 현재 비디오 블록에 대해 단방향(uni-directional) 예측을 실시할 수 있으며, 모션 추정부(4404)는 현재 비디오 블록을 위한 참조 비디오 블록에 대해 리스트 0 또는 리스트 1의 참조 픽처들을 탐색할 수 있다. 그리고 나서, 모션 추정부(4404)는 참조 비디오 블록을 포함하는 리스트 0 또는 리스트 0에서 참조 픽처를 표시하는 참조 인덱스를 그리고 상기 현재 비디오 블록과 상기 참조 비디오 블록 사이의 공간적 이동(displacement)을 표시하는 모션 벡터를 생성할 수 있다. 모션 추정부(4404)는 상기 참조 인덱스, 예측 방향 지시자 그리고 상기 모션 벡터를 상기 비디오 블록의 모션 정보로 출력할 수 있다. 모션 보상부(4405)는 상기 현재 비디오 블록의 상기 모션 정보에 의해 지시되는 상기 참조 비디오 블록에 기반하여 상기 현재 블록의 예측 비디오 블록을 생성할 수 있다.

다른 예들에서, 모션 추정부(4404)는 현재 비디오 블록에 대해 양방향(bi-directional) 예측을 실시할 수 있으며, 모션 추정부(4404)는 현재 비디오 블록을 위한 참조 비디오 블록에 대해 리스트 0의 참조 픽처들을 탐색할 수 있고, 현재 비디오 블록을 위한 다른 참조 비디오 블록에 대해 리스트 1의 참조 픽처들을 탐색할 수 있다. 그리고 나서, 모션 추정부(4404)는 참조 비디오 블록들을 포함하는 리스트 0 또는 리스트 0에서 참조 픽처들을 표시하는 참조 인덱스를 그리고 상기 현재 비디오 블록과 상기 참조 비디오 블록들 사이의 공간적 변이들(displacements)을 표시하는 모션 벡터들을 생성할 수 있다. 모션 추정부(4404)는 상기 참조 인덱스들 및 상기 현재 비디오 블록의 상기 모션 벡터들을 상기 비디오 블록의 모션 정보로 출력할 수 있다. 모션 보상부(4405)는 상기 현재 비디오 블록의 상기 모션 정보에 의해 지시되는 상기 참조 비디오 블록들에 기반하여 상기 현재 블록의 예측 비디오 블록을 생성할 수 있다.

일부 예들에서, 모션 추정부(4404)는 디코더의 디코딩 처리를 위한 모션 정보의 풀 세트를 출력할 수 있다. 일부 예들에서, 모션 추정부(4404)는 현재 비디오에 대한 모션 정보의 풀 세트를 출력하지 않을 수 있다. 오히려, 모션 추정부(4404)는 다른 비디오 블록의 모션 정보를 참조하여 현재 비디오 블록의 모션 정보를 시그널링할 수 있다. 예를 들어, 모션 추정부(4404)는 현재 비디오 블록의 모션 정보가 이웃 비디오 블록의 모션 정보와 충분히 유사하다고 판단할 수 있다.

일 예에서, 모션 추정부(4404)는, 현재 비디오 블록과 관련된 신택스 구조에서, 현재 비디오 블록이 다른 비디오 블록과 동일한 모션 정보를 가지고 있다는 것을 비디오 디코더(4500)에게 표시하는 값을 지시할 수 있다.

다른 예에서, 모션 추정부(4404)는, 현재 비디오 블록과 관련된 신택스 구조에서, 다른 비디오 블록 및 모션 벡터 차분(MVD: motion vector difference)을 식별할 수 있다. 상기 모션 벡터 차분은 현재 비디오 블록과 지시되는 비디오 블록의 모션 벡터 사이의 차분을 지시한다. 비디오 디코더(4500)는 지시되는 비디오 블록의 모션 벡터 및 모션 벡터 차분을 이용하여 현재 비디오 블록의 모션 벡터를 결정할 수 있다.

위에서 논의된 것처럼, 비디오 인코더(4400)는 모션 벡터를 예측적으로 시그널링할 수 있다. 비디오 인코더(4400)에 의해 실시될 수 있는 예측적 시그널링 기술들의 두 가지 예에는 향상된 모션 벡터 예측(advanced motion vector prediction (AMVP))과 머지 모드 시그널링이 있다.

인트라 예측부(4406)는 현재 비디오 블록에 대해 인트라 예측을 실시할 수 있다. 인트라 예측부(4406)가 현재 비디오 블록에 대해 인트라 예측을 실시하는 경우, 인트라 예측부(4406)는 동일한 픽처의 다른 비디오 블록들의 디코딩된 샘플들에 기반하여 현재 비디오 블록에 대한 예측 데이터를 생성할 수 있다. 현재 비디오 블록에 대한 예측 데이터는 예측된 비디오 블록 및 다양한 신택스 요소들을 포함할 수 있다.

잔차 생성부(4407)는 현재 비디오 블록에서 현재 비디오 블록의 예측 비디오 블록(들)을 차감하여 현재 비디오 블록에 대한 잔차 데이터를 생성할 수 있다. 현재 비디오 블록의 상기 잔차 데이터는 현재 비디오 블록의 샘플들의 상이한 샘플 구성요소들에 해당하는 잔차 비디오 블록들을 포함할 수 있다.

다른 예들에서, 가령 스킵 모드에서, 현재 비디오 블록에 대한 잔차 데이터가 없을 수 있으며, 잔차 생성부(4407)는 감산 동작을 실시하지 않을 수 있다.

변환부(4408)는 하나 이상의 변환들을 현재 비디오 블록과 연관된 잔차 비디오 블록에 적용하여 현재 비디오 블록에 대한 하나 이상의 변환 계수 비디오 블록들을 생성할 수 있다.

변환부(4408)가 현재 비디오 블록과 연관된 변환 계수 비디오 블록을 생성한 후, 양자화부(4409)는 현재 비디오 블록과 연관된 하나 이상의 양자화 파라미터(quantization parameter, QP) 값들에 기반하여 현재 비디오 블록과 연관된 상기 변환 계수 비디오 블록을 양자화 할 수 있다.

역양자화부(4410) 및 역변환부(4411)는 역양자화 및 역변환을 상기 변환 계수 비디오 블록에 각각 적용하여 상기 변환 계수 비디오 블록으로부터 잔차 비디오 블록을 복원할 수 있다. 복원부(4412)는 상기 복원된 잔차 비디오 블록을 예측부(4402)에 의해 생성된 하나 이상의 예측 비디오 블록들에 해당하는 샘플들에 더하여 버퍼(4413)에 저장하기 위해 현재 블록과 연관된 복원 비디오 블록을 생성할 수 있다.

복원부(4412)가 상기 비디오 블록을 복원한 후에, 루프 필터링 동작이 상기 비디오 블록에서 비디오 블로킹 아티팩트들을 감소시키기 위해 실시될 수 있다.

엔트로피 인코딩부(4414)는 비디오 인코더(4400)의 다른 기능적 구성요소들로부터 데이터를 수신할 수 있다. 엔트로피 인코딩부(4414)가 상기 데이터를 수신할 때, 엔트로피 인코딩부(4414)는 하나 이상의 엔트로피 인코딩 동작들을 실시하여 엔트로피 인코딩된 데이터를 생성하고 상기 엔트로피 인코딩된 데이터를 포함하는 비트스트림을 출력할 수 있다.

도 7은 도 5에 도시된 시스템(4300) 내의 비디오 디코더(4324)일 수 있는 비디오 디코더(4500)의 일 예를 도시하는 블록도이다. 비디오 디코더(4500)는 본 개시의 기술들 중 어느 하나 또는 전부를 실시하도록 구성될 수 있다. 도시된 예에서, 비디오 디코더(4500)는 복수의 기능적 구성요소들을 포함한다. 본 개시에서 설명되는 기술들은 비디오 디코더(4500)의 다양한 구성요소들 사이에 공유될 수 있다. 일부 예들에서, 프로세서는 본 개시에서 설명되는 기술들 중 어느 하나 또는 전부를 실시하도록 구성될 수 있다.

도시된 예에서, 비디오 디코더(4500)는 엔트로피 디코딩부(4501), 모션 보상부(4502), 인트라 예측부(4503), 역양자화부(4504), 역변환부(4505), 복원부(4506), 그리고 버퍼(4507)를 포함한다. 일부 예들에서, 비디오 디코더(4500)는 비디오 인코더(4400)와 관련하여 설명된 인코딩 패스에 일반적으로 상반된 디코딩 패스를 실시할 수 있다.

엔트로피 디코딩부(4501)는 인코딩된 비트스트림을 검색할 수 있다. 상기 인코딩된 비트스트림은 엔트로피 코딩된 비디오 데이터(예를 들어, 비디오 데이터의 인코딩된 블록들)을 포함할 수 있다. 엔트로피 디코딩부(4501)는 상기 엔트로피 코딩된 비디오 데이터를 디코딩할 수 있으며, 엔트로피 디코딩된 비디오 데이터로부터, 모션 보상부(4502)는 모션 벡터들, 모션 벡터 정밀도 및 참조 픽처 리스트 인덱스들을 포함하는 모션 정보 및 기타 모션 정보를 결정할 수 있다. 예를 들어, 모션 보상부(4502)는 AMVP 및 머지 모드 시그널링을 실행하여 이러한 정보를 결정할 수 있다.

모션 보상부(4502)는 가능한 경우 보간 필터들에 기반한 보간을 실시하여 모션 보상된 블록들을 산출할 수 있다. 서브 픽셀 정밀도와 함께 사용될 보간 필터들에 대한 식별자들은 신택스 요소들에 포함될 수 있다.

모션 보상부(4502)는 비디오 인코더(4400)가 비디오 블록의 인코딩 동안 사용한 것과 같이 보간 필터들을 사용하여 참조 블록의 서브-정수 픽셀들에 대한 보간된 값들을 계산할 수 있다. 모션 보상부(4502)는 비디오 인코더(4400)가 사용한 상기 보간 필터들을 수신된 신택스 정보에 따라 결정할 수 있으며, 상기 보간 필터들을 사용하여 예측적 블록들을 산출할 수 있다.

모션 보상부(4502)는 인코딩된 비디오 시퀀스의 프레임(들) 및/또는 슬라이스(들)을 인코딩 하는 데에 사용된 블록들의 크기들을 판단하기 위한 일부 신택스 정보, 인코딩된 비디오 시퀀스의 픽처의 각 매크로블록이 어떻게 분할되는지를 기술하는 분할 정보, 각 파티션이 어떻게 인코딩되었는지를 표시하는 모드들, 각각의 인터 코딩된 블록에 대한 하나 또는 그 상의 참조 프레임들 (및 참조 프레임 리스트들), 그리고 인코딩된 비디오 시퀀스를 디코딩하기 위한 기타 정보를 이용할 수 있다.

인트라 예측부(4503)는 공간적으로 인접한 블록들로부터 예측 블록을 형성하기 위해 예를 들어 비트스트림에서 수신된 인트라 예측 모드들을 이용할 수 있다. 역양자화부(4504)는 비트스트림에서 제공되며 엔트로피 디코딩부(4501)에 의해 디코딩된 양자화된 비디오 블록 계수들을 역 양자화(즉 양자화 해제)한다. 역변환부(4505)는 역변환을 적용한다.

복원부(4506)는 모션 보상부(4502) 또는 인트라 예측부(4503)에 의해 생성된 해당 예측 블록들과 잔차 블록들을 합산하여 디코딩된 블록들을 형성할 수 있다. 요구되는 경우, 디블로킹 필터 또한 블록화 아티팩트(blockiness artifacts)를 제거하기 위해 디코딩된 블록들의 필터링에 적용될 수 있다. 그리고 나서, 디코딩된 비디오 블록들은 버퍼(4507)에 저장되며, 버퍼는 후속 모션 보상/인트라 예측을 위한 참조 블록들을 제공하고, 또한 디스플레이 장치상에 제시하기 위한 디코딩된 비디오를 산출한다.

도 8은 예시적인 인코더(4600)의 개략적인 다이어그램이다. 인코더(4600)는 VVC의 기술들을 구현하기에 적합하다. 인코더(4600)는 3개의 인루프 필터, 즉 디블로킹 필터(DF)(4602), 샘플 적응적 오프셋(SAO)(4604), 및 적응적 루프 필터(ALF)(4606)를 포함한다. 미리 정의된 필터들을 사용하는 DF(4602)와 달리, SAO(4604) 및 ALF(4606)는, 제각기, 오프셋을 가산하는 것 및 유한 임펄스 응답(FIR) 필터를 적용하는 것에 의해 원래 샘플들과 재구성된 샘플들 간의 평균 제곱 오차들을 감소시키기 위해 현재 픽처의 원래 샘플들을 활용하며, 코딩된 부가 정보는 오프셋들 및 필터 계수들을 시그널링한다. ALF(4606)는 각각의 픽처의 마지막 프로세싱 스테이지에 위치하며, 이전 스테이지들에 의해 생성되는 아티팩트들을 잡아내어 수정하려고 하는 툴이라고 볼 수 있다.

인코더(4600)는 입력 비디오를 수신하도록 구성된 인트라 예측 컴포넌트(4608) 및 ME/MC(motion estimation/compensation) 컴포넌트(4610)를 더 포함한다. 인트라 예측 컴포넌트(4608)는 인트라 예측을 수행하도록 구성되는 반면, ME/MC 컴포넌트(4610)는 참조 픽처 버퍼(4612)로부터 획득되는 참조 픽처들을 활용하여 인터 예측을 수행하도록 구성된다. 인터 예측 또는 인트라 예측으로부터의 잔차 블록들은 엔트로피 코딩 컴포넌트(4618)에 공급되는 양자화된 잔차 변환 계수들을 생성하기 위해 변환(T) 컴포넌트(4614) 및 양자화(Q) 컴포넌트(4616)에 공급된다. 엔트로피 코딩 컴포넌트(4618)는 예측 결과들 및 양자화된 변환 계수들을 엔트로피 코딩하고 이를 비디오 디코더(도시되지 않음)를 향해 전송한다. 양자화 컴포넌트(4616)로부터 양자화 컴포넌트의 출력은 역양자화(IQ) 컴포넌트(4620), 역변환 컴포넌트(4622) 및 재구성(REC) 컴포넌트(4624)에 공급될 수 있다. REC 컴포넌트(4624)는 이미지들이 참조 픽처 버퍼(4612)에 저장되기 전에 필터링을 위해 해당 이미지들을 DF(4602), SAO(4604) 및 ALF(4606)에 출력할 수 있다.

일부 예들에 의해 선호되는 해결책들의 목록이 다음에 제공된다.

이하의 해결책들은 본 명세서에서 논의된 기술들의 예들을 보여준다.

1. 미디어 데이터 처리의 방법(가령, 도 4에 도시된 방법(4200))으로, 비디오와 상기 비디오의 비트스트림 간에 변환을 규칙에 따라 실시하는 단계를 포함하고, 상기 규칙은 상기 비디오의 주석 영역에서 해당 대상들을 위한 레이블들의 인덱스들을 지시하는 하나 또는 그 이상의 신택스 필드들의 값에 대한 범위를 명시하며, 상기 범위는 N과 M 사이이고, N과 M은 정수인, 방법.

2. 해결책 1에 있어서, N=0이고, M=255인 방법.

3. 해결책 1에 있어서, N=0이고, M=3인 방법.

아래 해결책들은 이전 섹션에서(가령, 항목 2)에서 논의된 기술들의 예시적인 실시예들을 보여준다.

4. 비디오 데이터를 처리하는 방법으로, 비디오와 상기 비디오의 비트스트림 간의 변환을 규칙에 따라 실시하는 단계를 포함하고, 상기 규칙은 상기 비트스트림에서 코딩되는 상기 비디오 내 대상들에 대한 깊이 정보의 구간 비선형 매핑에서 사용되는 비선형 세그먼트들의 수를 지시하는 신택스 요소를 코딩하기 위해 사용되는 코딩의 유형을 명시하는 방법.

5. 해결책 1에 있어서, 상기 규칙은 상기 신택스 요소가 좌측 비트 우선 코딩으로 무부호 정수 0차 지수 골롬 코딩된 신택스 요소(unsigned integer 0-th order Exp-Golomb-coded syntax element)로 코딩된다고 명시하는 방법.

6. 해결책 1에 있어서, 상기 규칙은 상기 신택스 요소가 u(N') 코딩되며, N'는 양의 정수인 방법.

7. 해결책 1에 있어서, 상기 규칙은 상기 신택스 요소가 좌측 비트 우선으로 부호를 가진 정수 0차 지수 골롬 코딩된 신택스 요소로 코딩된다고 명시하는 방법.

8. 해결책 1 내지 4에 있어서, 상기 규칙은 상기 신택스 요소의 값이 N 및 M 이내로 제한되며, N 및 M은 정수인 방법.

9. 해결책 5에 있어서, N=0 이고 M=65535인 방법.

10. 해결책 2에 있어서, N=0이고 M=3인 방법.

아래 해결책들은 이전 섹션에서(가령, 항목 3)에서 논의된 기술들의 예시적인 실시예들을 보여준다.

11. 비디오 데이터를 처리하는 방법으로, 비디오와 상기 비디오의 비트스트림 간의 변환을 규칙에 따라 실시하는 단계를 포함하고, 상기 규칙은 상기 비디오의 하나 이상의 대상들의 깊이 정보를 표현하는 추가 향상 정보 신택스 구조에서 신택스 요소에 대한 제약을 명시하는 방법.

12. 해결책 11에 있어서, 상기 신택스 요소는 깊이 표현 유형을 포함하고, 상기 규칙은 상기 신택스 요소의 값이 N과 M 사이의 범위로 제한된다고 명시하며, N과 M은 정수인 방법.

13. 해결책 11에 있어서, 상기 신택스 요소는 깊이 정보에 대한 비선형 매핑 모델들의 수를 지시하고, 상기 규칙은 상기 신택스 요소가 0과 M 사이의 범위에 있고, M은 정수인 방법.

14. 해결책 11에 있어서, 상기 신택스 요소는 변이 기준 뷰의 식별자를 지시하고, 상기 규칙은 상기 신택스 요소의 값이 0과 M 사이에 있고, M은 정수인 방법.

아래 해결책들은 이전 섹션에서(가령, 항목 4)에서 논의된 기술들의 예시적인 실시예들을 보여준다.

15. 비디오 데이터를 처리하는 방법으로, 비디오와 상기 비디오의 비트스트림 간의 변환을 규칙에 따라 실시하는 단계를 포함하고, 상기 규칙은 확장된 종속 랜덤 액세스 포인트인 픽처를 지시하는 플래그의 값이 (1) 상기 픽처와 동일 계층에 있고 디코딩 순서 및 출력 순서에서 상기 픽처를 뒤따르는 픽처들에 대한 1차 제약 및 (2) 상기 픽처와 동일 계층에 있고 상기 디코딩 순서에서 상기 픽처를 뒤따르고 상기 출력 순서에서 상기 픽처에 선행하는 픽처들에 대한 2차 제약을 제어한다고 명시하는 방법.

16. 해결책 15에 있어서, 상기 값이 1과 같은 방법.

17. 해결책 1 내지 16 중 어느 것에 있어서, 상기 변환은 상기 비디오로부터 상기 비트스트림을 생성하는 단계를 포함하는 방법.

18. 해결책 1 내지 16 중 어느 것에 있어서, 상기 변환은 상기 비트스트림으로부터 상기 비디오를 생성하는 단계를 포함하는 방법.

19. 해결책 1 내지 18 중 하나 또는 그 이상에서 언급된 방법을 실시하도록 구성된 프로세서를 포함하는 비디오 디코딩 장치.

20. 해결책 1 내지 18 중 하나 또는 그 이상에서 언급된 방법을 실시하도록 구성된 프로세서를 포함하는 비디오 인코딩 장치.

21. 컴퓨터 코드를 저장하는 컴퓨터 프로그램 제품으로, 상기 코드는 프로세서에 의해 실행 시 상기 프로세서로 하여금 해결책 1 내지 18 중 임의의 것에서 언급된 방법을 실시하도록 하는 컴퓨터 프로그램 제품.

22. 비디오 처리의 방법으로, 해결책 1 내지 8 중 어느 하나 또는 그 이상에서 언급된 방법에 따라 비트스트림을 생성하는 단계 및 상기 비트스트림을 컴퓨터 판독가능한 매체에 저장하는 단계를 포함하는 방법.

23. 본 문서에 기술된 방법, 장치 또는 시스템.

본 문서에서, "비디오 처리" 라는 용어는 비디오 인코딩, 비디오 디코딩, 비디오 압축 또는 비디오 압축 해제를 지칭할 수 있다. 예를 들어, 비디오의 픽셀 표현으로부터 대응하는 비트스트림 표현으로 또는 그 반대로 변환하는 동안 비디오 압축 알고리즘들이 적용될 수 있다. 현재 비디오 블록의 비트스트림 표현은, 예를 들어, 신택스에 의해 정의된 바와 같이, 비트스트림 내의 상이한 위치들에 병치(co-locate)되거나 분산되는 비트들에 대응할 수 있다. 예를 들어, 매크로블록은 변환되고 코딩된 오차 잔차 값들의 관점에서 그리고 또한 헤더들 내의 비트들 및 비트스트림 내의 다른 필드들을 사용하여 인코딩될 수 있다. 게다가, 변환 동안, 디코더는, 위의 해결책들에 설명된 바와 같이, 결정에 기초하여, 일부 필드들이 존재하거나 존재하지 않을 수 있다는 것에 대한 지식으로 비트스트림을 파싱할 수 있다. 유사하게, 인코더는 특정 신택스 필드들이 포함되어야 하는지 여부를 결정할 수 있고, 그에 따라 코딩된 표현으로부터 신택스 필드들을 포함하거나 제외하는 것에 의해 코딩된 표현을 생성할 수 있다.

본 문서에 설명된 개시된 및 다른 해결책들, 예들, 실시예들, 모듈들 및 기능 동작들은 디지털 전자 회로로, 또는 본 문서에 개시된 구조 및 그의 구조적 등가물을 포함한, 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 개시된 및 다른 실시예들은 하나 이상의 컴퓨터 프로그램 제품으로서, 즉 데이터 처리 장치에 의한 실행을 위해 또는 데이터 처리 장치의 동작을 제어하기 위해 컴퓨터 판독 가능 매체에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 판독 가능 매체는 머신 판독 가능 저장 디바이스, 머신 판독 가능 저장 기판, 메모리 디바이스, 머신 판독 가능 전파 신호를 실현하는 조성물(composition of matter), 또는 이들 중 하나 이상의 조합일 수 있다. "데이터 처리 장치"라는 용어는, 예로서, 프로그래밍 가능 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함한, 데이터를 처리하기 위한 모든 장치들, 디바이스들, 및 머신들을 포괄한다. 장치는, 하드웨어 외에도, 문제의 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드, 예를 들면, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 전파 신호는 인공적으로 생성된 신호, 예를 들면, 적합한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위해 생성되는 머신 생성 전기, 광학, 또는 전자기 신호이다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드라고도 함)은, 컴파일되는 또는 인터프리트되는 언어들을 포함한, 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 독립형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함한, 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램이 파일 시스템에서의 파일에 반드시 대응하는 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터(예를 들면, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일 부분에, 문제의 프로그램에 전용된 단일 파일에, 또는 다수의 통합 파일들(예를 들면, 하나 이상의 모듈, 서브 프로그램, 또는 코드 부분을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서 또는 하나의 사이트에 위치하거나 다수의 사이트들에 걸쳐 분산되고 통신 네트워크에 의해 상호연결되는 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.

본 문서에 설명된 과정들 및 논리 흐름들은 입력 데이터에 대해 동작하여 출력을 생성하는 것에 의해 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래밍 가능 프로세서에 의해 수행될 수 있다. 과정들 및 논리 흐름들이 또한 특수 목적 로직 회로, 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행될 수 있고, 장치가 또한 이것들로서 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는, 예로서, 범용 및 특수 목적 마이크로프로세서 양자 모두 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령어들을 수행하기 위한 프로세서 및 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들면, 자기, 자기 광학 디스크, 또는 광학 디스크를 포함할 것이거나, 또는 이것들로부터 데이터를 수신하거나 이들로 데이터를 전송하도록 동작 가능하게 결합될 수 있거나, 또는 둘 모두일 것이다. 그렇지만, 컴퓨터가 그러한 디바이스들을 가질 필요는 없다. 컴퓨터 프로그램 명령어들과 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는, 예로서, 반도체 메모리 디바이스, 예를 들면, EPROM, EEPROM, 및 플래시 메모리 디바이스; 자기 디스크, 예를 들면, 내장형 하드 디스크 또는 이동식 디스크; 자기 광학 디스크; 및 CD ROM과 DVD-ROM 디스크를 포함한, 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서 및 메모리는 특수 목적 로직 회로에 의해 보완되거나 그에 통합될 수 있다.

본 특허 문서가 많은 구체적 사항들을 포함하지만, 이들은 임의의 주제의 범위 또는 청구될 수 있는 것의 범위에 대한 제한으로서 해석되어서는 안 되며, 오히려 특정 기술들의 특정의 실시예들에 특정적일 수 있는 특징들에 대한 설명으로서 해석되어야 한다. 개별적인 실시예들의 맥락에서 본 특허 문서에 설명되는 특정한 특징들이 또한 단일 실시예에서 조합하여 구현될 수 있다. 이와 달리, 단일 실시예의 맥락에서 설명되는 다양한 특징들이 또한 다수의 실시예들에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 특징들이 특정 조합들로 기능하는 것으로 위에서 설명되고 심지어 처음에 그 자체로서 청구될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징이 일부 경우에 그 조합으로부터 제거될 수 있고, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관한 것일 수 있다.

유사하게, 동작들이 도면에서 특정의 순서로 기술되지만, 이것은, 바람직한 결과를 달성하기 위해, 그러한 동작들이 도시된 특정의 순서로 또는 순차적 순서로 수행되어야 하거나, 모든 예시된 동작들이 수행되어야 하는 것을 요구하는 것으로 이해되어서는 안 된다. 더욱이, 본 특허 문서에 설명된 실시예들에서 다양한 시스템 컴포넌트들의 분리가 모든 실시예들에서 그러한 분리를 요구하는 것으로서 이해되어서는 안 된다.

단지 몇 가지 구현들 및 예들이 설명되고 다른 구현들, 향상들 및 변형들이 이 특허 문서에 설명되고 예시된 것에 기초하여 이루어질 수 있다.

제1 컴포넌트와 제2 컴포넌트 사이에 라인, 트레이스, 또는 다른 매체가 있는 경우를 제외하고, 중간 컴포넌트들이 없을 경우, 제1 컴포넌트는 제2 컴포넌트에 직접 결합된다. 제1 컴포넌트와 제2 컴포넌트 사이에 라인, 트레이스, 또는 다른 매체 이외의 중간 컴포넌트들이 있는 경우, 제1 컴포넌트는 제2 컴포넌트에 간접적으로 결합된다. "결합된"이라는 용어와 그 변형들은 직접 결합된 것과 간접적으로 결합된 것 양쪽 모두를 포함한다. "약"이라는 용어의 사용은, 달리 언급되지 않는 한 후속 개수의 ±10%를 포함하는 범위를 의미한다.

본 개시내용에서 실시예들이 여러 개 제공되었지만, 개시된 시스템 및 방법들은 본 개시내용의 사상과 범위로부터 벗어나지 않고 많은 다른 특정한 형태로 구현될 수도 있다는 것을 이해해야 한다. 본 예들은 제한이 아니라 예시로서 간주되어야 하며, 여기서 주어진 상세사항들로 제한하고자 하는 의도가 아니다. 예를 들어, 다양한 요소들 또는 컴포넌트들이 결합되거나 또 다른 시스템 내에 통합될 수 있으며, 소정의 특징들은 생략되거나, 구현되지 않을 수도 있다.

또한, 다양한 실시예에서 개별적 또는 별개인 것으로 설명되고 예시된 기술들, 시스템들, 서브시스템들, 및 방법들은, 본 개시의 범위로부터 벗어나지 않고 다른 시스템들, 모듈들, 기술들, 또는 방법들과 결합되거나 통합될 수도 있다. 결합된 것으로 도시되거나 논의된 다른 항목들은 직접 접속되거나, 전기적이든, 기계적이든 또는 기타의 방식으로든, 어떤 인터페이스, 디바이스, 또는 중간 컴포넌트를 통해 간접 결합되거나 통신할 수 있다. 변경, 대체, 및 수정의 다른 예들은 본 기술분야의 통상의 기술자라면 알아낼 수 있으며, 여기서 개시된 사상과 범위로부터 벗어나지 않고 이루어질 수 있을 것이다.

Claims

비디오 데이터를 처리하기 위한 방법으로,
확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계; 및
상기 edrap_leading_pictures_decodable_flag 신택스 요소에 기반하여 시각 미디어 데이터와 비트스트림 간의 변환을 실시하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 비트스트림은 적어도 하나 이상의 EDRAP 픽처를 포함하고, 상기 edrap_leading_pictures_decodable_flag의 값은 순서 제약이 상기 EDRAP 픽처에 부여되는지 여부를 지시하는, 방법.
제1항 내지 제2항 중 어느 한 항에 있어서,
상기 edrap_leading_pictures_decodable_flag의 값이 0 이면, 상기 순서 제약이 상기 EDRAP 픽처에 부여되지 않는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 edrap_leading_pictures_decodable_flag의 값이 1 이면, 상기 순서 제약이 상기 EDRAP 픽처에 부여되는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제약은, 상기 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르는 임의의 픽처는, 상기 EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 선행하는 임의의 픽처를 출력 순서 상 뒤따라야 함을 명시하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 제약은, EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처를 뒤따르며 출력 순서 상 상기 EDRAP 픽처에 선행하는 임의의 픽처는, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들(active entries)에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 상기 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않음을 명시하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 edrap_leading_pictures_decodable_flag 신택스 요소는 EDRAP SEI 메시지내에 포함되는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 참조 가능한 픽처들의 리스트는, 동일한 코딩된 계층 비디오 시퀀스(CLVS) 내 디코딩 순서 상 인트라 랜덤 액세스 포인트 (IRAP) 또는 EDRAP 픽처들을 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 참조 가능한 픽처들의 리스트내 각 픽처는 i번째 EDRAP 참조 액세스 포인트 식별자 (edrap_ref_rap_id[　i　]) 신택스 요소에 의해 식별되어 지는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 edrap_leading_pictures_decodable_flag 신택스 요소는 u(v)로 코딩되는, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
각 EDRAP 픽처는 트레일링 픽처(trailing picture)인, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
각 EDRAP 픽처는 0과 동일한 시간 서브계층 식별자를 갖는, 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
각 EDRAP 픽처는 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처들의 참조 픽처 리스트의 활성 엔트리들내 동일 계층의 어떤 픽처도 포함하지 않는, 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 비트스트림은, EDRAP 픽처와 동일한 계층에 있으며 디코딩 순서 상 및 출력 순서 상 모두 상기 EDRAP 픽처를 뒤따르는 임의의 픽처는, 상기 픽처의 참조 픽처 리스트의 활성 엔트리들에, 참조 가능한 픽처들의 리스트를 제외하고, 상기 EDRAP 픽처와 동일 계층에 있으며 디코딩 순서 상 또는 출력 순서 상 상기 EDRAP 픽처에 선행하는 어떤 픽처도 포함하지 않음으로 제한되는, 방법.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 변환은 상기 시각 미디어 데이터를 상기 비트스트림으로 인코딩하는 것을 포함하는, 방법.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 변환은 상기 비트스트림으로부터 상기 시각 미디어 데이터를 디코딩 하는 것을 포함하는, 방법.
프로세서 및 명령어들을 저장하는 비일시적 메모리를 포함하는, 비디오 데이터를 처리하기 위한 장치로서,
상기 명령어들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금 제1항 내지 제16항 중 어느 한 항의 방법을 실시하도록 하는, 장치.
비디오 코딩 디바이스가 사용할 컴퓨터 프로그램 제품을 포함하는 비일시적 컴퓨터 판독가능 매체로서,
상기 컴퓨터 프로그램 제품은 상기 비일시적 컴퓨터 판독가능 매체에 저장되고 컴퓨터로 실행가능한 명령어들을 포함하여, 상기 명령어들이 프로세서에 의해 실행 시에 상기 비디오 코딩 디바이스로 하여금 제1항 내지 제16항 중 어느 한 항의 방법을 실시하도록 하는, 매체.
비디오 처리 장치에 의해 실시되는 방법에 의해 생성되는 비디오의 비트스트림을 저장하는 비일시적 컴퓨터 판독가능 기록 매체로서,
상기 방법은, 확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계; 및
상기 결정에 기반하여 비트스트림을 생성하는 단계를 포함하는, 매체.
비디오의 비트스트림을 저장하기 위한 방법으로,
확장된 종속 랜덤 액세스 포인트 (EDRAP) 리딩 픽처 디코더블 플래그(edrap_leading_pictures_decodable_flag) 신택스 요소의 값을 결정하는 단계;
상기 결정에 기반하여 비트스트림을 생성하는 단계; 및
상기 비트스트림을 비일시적인 컴퓨터 판독가능 기록 매체에 저장하는 단계를 포함하는, 방법.