KR20210138074A

KR20210138074A - 액세스 단위 경계들을 시그널링하고 식별하기 위한 기법들

Info

Publication number: KR20210138074A
Application number: KR1020217033401A
Authority: KR
Inventors: 병두 최; 스테판 웽어; 솨이 자오
Original assignee: 텐센트 아메리카 엘엘씨
Priority date: 2020-02-24
Filing date: 2020-10-05
Publication date: 2021-11-18
Also published as: US20210266599A1; WO2021173190A1; JP7493533B2; US11792432B2; JP2022529355A; EP4111682A1; EP4111682A4; CN114009030A

Abstract

코딩된 비디오 비트스트림에서 액세스 단위(AU) 경계를 식별하기 위한 방법 및 장치가, 적어도 두 개의 네트워크 추상화 계층(NAL) 단위들 중 각각의 네트워크 추상화 계층 단위로부터의 적어도 하나의 필드로부터의 정보를 상관시키는 것을 포함한다.

Description

액세스 단위 경계들을 시그널링하고 식별하기 위한 기법들

관련 출원들에 대한 상호 참조

본 출원은 2020년 2월 24일자로 출원된 미국 특허 가출원 제62/980,659호와 2020년 9월 21일자로 출원된 미국 특허 출원 제17/026,781호를 우선권 주장하며, 그것들의 전부는 본 명세서에 포함된다.

분야

개시된 발명의 주제는 IP 네트워크(들)를 통해 비디오를 전달하기 위한 네트워크 프로토콜(들)에 관한 것이고, 더 구체적으로는, 비디오 패이로드 포맷에서 프레임(들)의 개별 액세스를 지원하기 위한 액세스 단위(Access Unit)(프레임) 경계 정보의 시그널링에 관한 것이다.

도 1을 참조하면, 네트워크 연결식 시스템이 음성, 비디오, 및/또는 다른 미디어와 같은 실시간 미디어를 사용하여, 인터넷과 같은 IP 네트워크(104)를 통해 서로 통신하는 하나 이상의 엔드포인트들(101, 102, 103)를 포함할 수 있다. 그 시스템은 예를 들어, 한 엔드포인트에 의해 전송된 미디어를 다른 엔드포인트에 포워딩하기 전에 해당 미디어를 조작하도록 구성되는 하나 이상의 미디어 인식 네트워크 엘리먼트(들)(105)를 더 포함할 수 있다.

이러한 특정한 시스템 설계들에서, 엔드포인트(들) 및/또는 모바일 애드혹 네트워크 에뮬레이터(Mobile Ad-hoc Network Emulator)(MANE)는 RTP 패킷들을 네트워크를 통해, 예를 들어, 다른 엔드포인트 또는 MANE에 위치되는 RTP 수신기에 전송하는 실시간 전송 프로토콜(Real-time Transport Protocol)(RTP) 패킷화기를 포함할 수 있다. 일부 경우들에서, 전송 엔드포인트는 비디오 인코더에 기능적으로 커플링되는 비디오 카메라를 포함할 수 있으며, 비디오 인코더는 패킷화기에 커플링될 수 있어서, 비디오 카메라에 의해 캡처되는 비디오는 전송 엔드포인트, 예를 들어, 엔드포인트 (101)로부터, 네트워크 (104)를 통해 수신 엔드포인트 예를 들어 102에 RTP 패킷들을 사용하여 전송될 수 있다.

일부 경우들에서, 전송 엔드포인트는 비디오 인코더를 포함하지 않을 수 있다. 대신, 비디오는 엔드포인트 (101)에 커플링되는 하드 드라이브 등(106) 상에 저장되는 파일로부터 획득될 수 있다.

인터넷 및 다른 IP 네트워크들을 통해 비디오에 대한 특정한 실시간 통신 기법들이 RFC 3550에서 특정되는 실시간 전송 프로토콜(Real-Time Transport Protocol)(RTP)에 의존할 수 있다. 일부 경우들에서, RTP 패킷들은 하나의 엔드포인트 또는 MANE로부터 다른 것으로 IP를 통한 사용자 데이터그램 프로토콜(User Datagram Protocol)(UDP)을 통해 전송될 수 있다. 도 2를 참조하면, 도시된 것은 RFC3550에서 특정되는 바와 같은 RTP 헤더 구조이다. 여기서, 각각의 RTP 패킷은 RTP 패킷 헤더로 시작할 수 있다. 도 2는 RFC3550에서 특정되는 바와 같은 RTP 헤더의 포맷을 예시한다.

도 2에 예시된 바와 같이, 버전(V) 필드(201)가 RTP의 버전을 식별할 수 있고 2와 동일할 수 있다. 패딩(P) 필드(202)는 패킷이 말단에서 하나 이상의 추가적인 패딩 옥텟들을 포함하는지의 여부를 특정할 수 있다. 확장(X) 필드 (203)는 고정 헤더에 정확히 하나의 헤더 확장부가 뒤따르는지의 여부를 지시할 수 있다. CSRC 카운트(CC) 필드(204)는 고정 헤더를 뒤따르는 CSRC 식별자들의 수를 포함할 수 있다. 마커(M) 필드(205)는 패킷 스트림에서 AU 경계들과 같은 상당한 이벤트들의 마킹을 허용할 수 있다. 패이로드 유형(PT) 필드는 특정한 RFC3984 파라미터 세트와 함께 RTP 패이로드 포맷 RFC 6184를 사용하여 ITU-T 권고 H.264에 따라 인코딩된 비디오와 같은 패이로드 유형(206) ― 사용중인 미디어 유형 ― 을 지시할 수 있다. PT는, 많은 경우들에서, 호 제어 프로토콜에 의해 선택될 수 있다. RTP 시퀀스 번호(207)는 랩 어라운드까지 전송된 각각의 RTP 패킷에 대해 하나씩 증가할 수 있다. RTP 타임스탬프 (208)는 패킷의 제1 샘플이 샘플링된 시간 순간(캡처 시간)을 나타낼 수 있고 프레젠테이션 시간으로서 흔히 사용될 수 있다. 적어도 일부 비디오 코덱들에 대한 타임스탬프는 90 kHz일 수 있는 반면, 많은 오디오 코덱들의 경우, 타임스탬프는 8kHz, 44.1 kHz, 또는 48 kHz와 같은 샘플링 레이트와 동일할 수 있다. 동기화 소스(209)와 기여 소스(210)는 아래에 소개된다.

RTP는 애플리케이션 계층 프레이밍의 일반적인 접근법을 따를 수 있고, 그래서 특정한 비디오 코딩 표준들에 따라 특정된 코딩된 비디오 포맷들과 같은 특정한 패이로드들에의 적응은 RTP 패이로드 포맷들로서 알려진 메인 RTP 사양 외부에 도우미 사양들에 의해 특정될 수 있다. 특정한 RTP 패이로드 포맷들은 자신들의 패이로드 헤더로서 H.264 또는 H.265와 같은 특정한 비디오 코딩 표준들에서 존재하는 바와 같은 네트워크 추상화 헤더의 비트들을 재사용할 수 있다. 이러한 RTP 패이로드 포맷들 및 비디오 코딩 표준들에서, 네트워크 추상화 계층 단위(Network Abstraction Layer Unit)(NAL 단위 또는 NALU)가, 예를 들어, 슬라이스, 타일, GOB 등과 같은 하나의 코딩된 화상 또는 그것의 잘 정의된 부분을 덮는 유한 사이즈의 비트스트림일 수 있다.

비트스트림은, 자신의 시작부분에서, 포함되는 비트스트림의 유형에 관련된 최소 정보와, 일부 시나리오들에서, 계층화 정보를 포함하는, 예를 들어, 8 또는 16 비트 길이의 비교적 짧은 데이터 구조를 포함할 수 있다.

적어도 일부 비디오 코딩 표준들은 액세스 단위(AU)의 개념을 인식한다. 단일 계층의 경우, 액세스 단위가 단일 코딩된 화상으로 구성될 수 있다. 다른 경우들, 특히 계층화된 코딩 및 멀티뷰 코딩에 관련된 경우들에서, AU가, 예를 들어 동일한 프레젠테이션 시간을 갖는 특정한 타이밍 정보를 공유하는 다수의 코딩된 화상들을 포함할 수 있다.

RTP 헤더는 이른바 "마커" 비트(M-비트)(205)를 포함할 수 있다. 협약에 의해, AU의 개념을 인식하는 실질적으로 모든 RTP 패이로드 포맷들에서, M-비트는 AU의 마지막 비트스트림을 운반하는 RTP 패킷에 대해 1과 동일하게 특정되고, 그렇지 않으면 0으로 설정될 수 있다. 수신기가 M-비트 세트로 RTP 패킷을 수신할 때, 통상적으로 이 RTP 패킷이 AU의 마지막 패킷임을 알고 그것을 그에 따라 처리할 수 있다. 이러한 처리의 일부 세부사항들은 RTP 사양에서 확인될 수 있다.

간단히 도 1을 다시 참조하면, 전송 엔드포인트 (101)는 자신의 전송 비디오 비트스트림을 저장 디바이스/하드 드라이브(106)로부터 획득하고, 이러한 파일은, 예를 들어 비트스트림이, 예를 들어, "부록 B 비트스트림"으로서 흔히 알려진 포맷으로 저장될 수 있기 때문에, 액세스 단위 경계들에 관한 쉽게 액세스가능 메타 정보를 포함하지 않을 수 있다고 가정한다. 이러한 시나리오에서, 인코더로부터 RTP 패킷화기에 비트스트림의 비트스트림이 AU의 최종 비트스트림임을 시그널링하는데 이용 가능한 애플리케이션 프로그래머의 인터페이스(API) 정보가 없을 수 있다. 대신, RTP 패킷화기가 인코더에 의해 통상 획득 가능한 사이드 정보 없이 AU의 말단을 포함하는 비트스트림을 식별해야 할 수 있다.

개시된 것들은 비디오 RTP 패이로드 포맷에서 액세스 단위 경계를 시그널링하고 식별하기 위한 기법들이다.

개시된 발명의 주제의 추가의 특징들, 성질, 및 다양한 장점들은 다음의 상세한 설명 및 첨부 도면들로부터 더 명확하게 될 것이며, 도면들 중:
도1은 RTP를 사용한 미디어 송신 시스템의 개략적인 예시도이다.
도 2는 RTP 헤더의 개략적인 예시도이다.
도 3은 비트 경계 실시예에 대한 VVC의 NAL 단위 헤더의 개략적인 예시도이다.
도 4는 단순화된 블록의 액세스 단위 경계 검출의 개략적인 예시도이다.
도 5는 일 실시예에 따른 컴퓨터 시스템의 개략적인 예시이다.
[해결하려는 과제]
실시간 전송 프로토콜(RTP)은, 스트리밍 미디어를 이용하여 통신 시스템에서 사용될 수 있다. VVC(Versatile Video Coding)로서 둘 다 알려지고 JVET(Joint Video Experts Team)에 의해 개발된 코딩 표준 ITU-T 권고 [H.266] 및 ISO/IEC 국제 표준 [ISO23090-3]을 준수하는 비디오 데이터를 운반하기 위한 RTP 패이로드 포맷은 최근 주목을 받고 있다. RTP 패이로드 포맷은 각각의 RTP 패킷 패이로드에서의 하나 이상의 네트워크 추상화 계층(NAL) 단위들의 패킷화 뿐만 아니라 다수의 RTP 패킷들로의 NAL 단위의 단편화를 허용한다. VVC 비디오 코딩은 시작 코드들 넘어 정보를 프레이밍하는 일 없이, 하나의 긴 비트스트림으로서 파일에 저장될 수 있다. 이 비트스트림의 실질적으로 모든 세부사항들을 파싱하는 일 없이, RTP 패킷화기가 RTP 및 RTP 패이로드 사양들에 의해 요구되는 바와 같이 M-비트를 올바르게 설정할 수 없다.

일 실시예에서, 마커 비트가 1과 동일하게 설정될 때, 이는 현재 패킷이 현재 RTP 스트림에서 액세스 단위(AU)의 마지막 패킷일 수 있다는 것을 나타낼 수 있다. 마커 비트가 0과 동일하게 설정될 때, 이는 현재 패킷이 액세스 단위의 마지막 패킷이 아닐 수 있다는 것을 나타낼 수 있다. 이러한 마커 비트의 사용은 비디오에 대해 현재 특정된 실질적으로 모든 RTP 패이로드 포맷들에서의 마커 비트의 일반적인 사용과 일치한다.

도 3을 참조하면, 동일한 또는 다른 실시예에서, VVC NAL 단위 헤더가 두 개의 바이트들(16 개 비트들)로 구성될 수 있다. 여기서, 5 개 비트들이 NAL 단위 유형(304)을 나타낸다. 그 결과, 최대 32 가지 NAL 단위 유형들이 있을 수 있다. 비디오 코딩 계층(Video Coding Layer)(VCL) NAL 단위들이 0과 12 사이의 수치 범위의 유형을 가질 수 있고, 비-VCL NAL 단위들이 13 내지 31 사이의 범위의 유형을 가질 수 있다. forbidden_zero_bit(F-비트, 301)는 시작 코드 에뮬레이션의 방지를 위해 0으로 설정되도록 요구될 수 있다. nuh-reserved-비트(Z-비트, 302)는, 0으로 설정되도록 요구되고 ITU 및 ISO/IEC에 의한 향후 확장을 위해 예약될 수 있다. nuh-layer-id(LayerID, 303)는 NAL 단위가, 이를테면 공간적 확장가능 계층, 또는 품질 확장가능 계층에 속하는 계층을 식별하는데 사용될 수 있다. nal-unit-type(유형(Type), 304) 필드는 VVC 사양에 기초하지 않고 NAL 유형 및 시맨틱스를 특정할 수 있다. 마지막 nuh-temporal-id-plus1(TID, 305) 필드는 0의 TID 값이 불법일 수 있으므로 TemporalId 더하기 1의 값일 수 있다. 이는 하나의 NAL이 코드 에뮬레이션을 위해 적어도 한 비트는 되어야만 한다는 것을 보장하기 위한 것이다.

동일한 또는 다른 실시예에서, NAL 단위의 콘텐츠는 NAL 단위가 AU의 디코딩 순서에서 마지막 NAL 단위인지의 여부를 알려주지 않을 수 있다 ― 적어도 잠재적으로 많은 다른 NAL 단위들을 파싱하는 일 없이는 그렇지 않다. 따라서, 사이드 정보 없이, 패킷화기가 고립된 비디오 비트스트림으로부터 해당 정보를 쉽게 획득하지 못할 수 있다. 예를 들어, 실시간 인코딩 맥락에서, RTP 송신기 구현예가 이 정보를, 예를 들어 API를 통해, 비디오 인코더 또는 다른 시스템 엘리먼트(들)로부터 획득할 수 있다. 그러나, 부록 B 비트스트림이 스트리밍 전에 하드 드라이브 상에 저장되는 위에서 언급된 것을 포함하여, 이러한 API가 이용 가능하지 않은 시나리오들이 있을 수 있다. 이 정보가 인코더 또는 다른 시스템 엘리먼트로부터 명시적으로 획득될 수 없을 때, 송신기 구현예는 NAL 단위가 액세스 단위의 마지막 NAL 단위인지의 여부를 결정하기 위해 순서대로 디코딩함에 있어서 NAL 단위 헤더들(과 잠재적으로 또한 NAL 단위들의 패이로드 데이터)을 해석하는 것이 요구될 수 있다. 이러한 정보를 획득하기 위해 사용되는 이러한 및 다른 신규한 기법들은 아래에서 설명된다.

액세스 단위 경계들을 시그널링하고 식별하기 위한 기법들은 도 4에서 예시된다. 도 4를 참조하면, 동일한 또는 다른 실시예에서, NAL 단위가 비트스트림의 마지막 NAL 단위이면 이는 AU의 마지막 NAL 단위인 것으로 결정될 수 있다.

또한 도 4를 참조하면, NAL 단위가 AU의 마지막 NAL 단위인지를 결정하기 위한 일 실시예가 예시된다. 여기서, 프로세스는 디코딩 큐(402)에서 두 개의 NAL 단위들, 즉, nalX 단위 및 nalY 단위가 있을 때 시작할 수 있다(401). 여기서, 목표는 nalX가 AU의 마지막 비트스트림인지, 또는 nalY가 다음 AU의 시작부분인지를 결정하려는 것이다. nalX 단위가 이 비트스트림의 마지막 NAL 단위이면(~d03), nalX가 현재 AU의 마지막 NAL 단위라는 결론이 내려질 수 있다(407). 그러나, 그것이 그 경우가 아니면, 다음 프로세스가 진행될 수 있다.

구체적으로는, nalX가 NAL 단위 유형 값이 20인 유형의 AUD_NUT이면(404), nalX는 현재 AU의 마지막 NAL 단위라는 것이 확실하다. 만약 nalX가 AUD_NUT NAL 유형이 아니고, nalY가 픽처 헤더 유형 단위이고, 또한 nalX와 nalY 사이의 모든 NAL 단위들이 파라미터 세트 또는 SEI NAL 유형이면, nalX는 현재 AU의 마지막 NAL 단위라고 결정되고, 그렇지 않으면 nalX는 마지막 NAL 단위는 아니라고 결정된다(406).

다음의 양 조건들이 참이면 NAL 단위(naluX)가 또한 AU의 마지막 NAL 단위인 것으로 또한 결정될 수 있다: 1) 디코딩 순서에서 다음 VCL NAL 단위(naluY)는 자신의 NAL 단위 헤더가 1과 동일하거나 또는 nal_unit_type(304)이 19와 동일한 후 첫 번째 바이트의 상위 비트를 갖고, 2) naluX와 naluY 사이의 모든 NAL 단위들은, 존재할 때, 13 내지 17의 범위인, 끝점을 포함함, 20과 동일한, 23과 동일한 또는 26과 동일한 nal_unit_type(304)을 갖는다.

동일하거나 또는 상이한 실시예에서, 다음의 양 조건들이 참이면 NAL 단위(naluX)가 또한 액세스 단위의 마지막 NAL 단위인 것으로 또한 결정될 수 있다: 1) 디코딩 순서에서 다음 VCL NAL 단위(naluY)가 슬라이스 세그먼트 헤더에서 1과 동일한 picture_header_in_slice_header_flag를 갖거나 또는 nal_unit_type은 PH_NUT와 동일하게 설정되고, 2) naluX와 naluY 사이의 모든 NAL 단위들은, 존재할 때, DCI_NUT, VPS_NUT, SPS_NUT, PPS_NUT, PREFIX_APS_NUT, AUD_NUT, PREFIX_SEI_NUT와 동일하게 설정된 nal_unit_type을 갖는다.

동일한 또는 다른 실시예에서, NAL 단위(naluX)가, 디코딩 순서에서 다음 VCL NAL 단위(naluY)가 AUD_NUT와 동일한 nal_unit_type을 가질 때, 액세스 단위의 마지막 NAL 단위인 것으로 또한 결정될 수 있다.

위에서 설명된 코딩된 비디오 비트스트림에서 액세스 단위(AU) 경계를 식별하기 위한 기법들은 컴퓨터 판독가능 명령들을 사용하여 컴퓨터 소프트웨어로서 구현되고 하나 이상의 컴퓨터 판독가능 매체에 물리적으로 저장될 수 있다. 예를 들어, 도 5는 개시된 발명의 주제의 특정한 실시예들을 구현하기에 적합한 컴퓨터 시스템(500)을 도시한다.

컴퓨터 소프트웨어는 컴퓨터 중앙 프로세싱 유닛들(central processing units)(CPU들), 그래픽 프로세싱 유닛들(Graphics Processing Units)(GPU들) 등에 의해 직접, 또는 인터프리션, 마이크로코드 실행 등을 통해 실행될 수 있는 명령들을 포함하는 코드를 생성하기 위해 어셈블, 컴파일, 링킹, 또는 유사 메커니즘들을 받을 수 있는 임의의 적합한 머신 코드 또는 컴퓨터 언어를 사용하여 코딩될 수 있다.

명령들은 예를 들어, 개인용 컴퓨터들, 태블릿 컴퓨터들, 서버들, 스마트폰들, 게이밍 디바이스들, 사물 인터넷 디바이스들 등을 포함하여 다양한 유형들의 컴퓨터들 또는 그 컴포넌트들 상에서 실행될 수 있다.

컴퓨터 소프트웨어는 컴퓨터 중앙 프로세싱 유닛들(CPU들), 그래픽 프로세싱 유닛들(GPU들) 등에 의해 직접, 또는 인터프리션, 마이크로코드 실행 등을 통해 실행될 수 있는 명령들을 포함하는 코드를 생성하기 위해 어셈블, 컴파일, 링킹, 또는 유사 메커니즘들을 받을 수 있는 임의의 적합한 머신 코드 또는 컴퓨터 언어를 사용하여 코딩될 수 있다.

컴퓨터 시스템(500)에 대해 도 5에 도시된 컴포넌트들은 본질적으로 예시적이고, 본 개시의 실시예들을 구현하는 컴퓨터 소프트웨어의 사용 또는 기능의 범위에 관한 임의의 제한을 제안하지 않는 것으로 의도된다. 컴포넌트들의 구성은 컴퓨터 시스템(500)의 예시적인 실시예에서 도시되는 컴포넌트들 중 임의의 하나 또는 조합에 관련한 어떠한 의존성이나 요구사항도 갖지 않는 것으로서는 해석되어야 한다.

컴퓨터 시스템(500)은 특정한 인간 인터페이스 입력 디바이스들을 포함할 수 있다. 이러한 인간 인터페이스 입력 디바이스는, 예를 들어 촉각 입력(이를테면, 키스트로크들, 스위프들, 데이터 장갑 움직임들), 오디오 입력(이를테면, 음성, 박수소리(clapping)), 시각적 입력(이를테면, 제스처들), 후각 입력(묘사되지 않음)을 통한 하나 이상의 인간 사용자들에 의한 입력에 응답할 수 있다. 인간 인터페이스 디바이스들은, 오디오(이를테면, 스피치, 음악, 주변 사운드), 이미지들(이를테면, 스캔된 이미지들, 스틸 이미지 카메라에서 획득된 사진 이미지들), 비디오(이를테면 2차원 비디오, 스테레오스코픽 비디오를 포함하는 3차원 비디오)와 같이, 인간에 의한 의식적인 입력에 반드시 직접 관련되지는 않은 특정한 미디어를 캡처하는데 또한 사용될 수 있다.

입력 인간 인터페이스 디바이스들은 키보드(501), 마우스(502), 트랙패드(503), 터치 스크린(510), 데이터 장갑(504), 조이스틱(505), 마이크로폰(506), 스캐너(507), 카메라(508) 중 하나 이상(각각의 하나만 묘사됨)을 포함할 수 있다.

컴퓨터 시스템(500)은 특정한 인간 인터페이스 출력 디바이스들을 또한 포함할 수 있다. 이러한 인간 인터페이스 출력 디바이스들은, 예를 들어, 촉각 출력, 사운드, 광, 및 냄새/맛을 통해 하나 이상의 인간 사용자들의 감지들을 시뮬레이션하는 것일 수 있다. 이러한 인간 인터페이스 출력 디바이스들은 촉각 출력 디바이스들(예를 들어 터치스크린(510), 데이터 장갑(504), 또는 조이스틱(505)에 의한 촉각 피드백이지만, 또한 입력 디바이스들로서 역할을 하지 않는 촉각 피드백 디바이스들일 수 있음), 오디오 출력 디바이스들(이를테면 스피커들(509), 헤드폰들(묘사되지 않음)), 시각적 출력 디바이스들(이를테면 CRT 스크린들, LCD 스크린들, 플라즈마 스크린들, OLED 스크린들을 포함하는 스크린들(510)이며, 각각은 터치스크린 입력 능력이 있거나 또는 없으며, 각각은 촉각 피드백 능력이 있거나 또는 없음 ― 그것들의 일부는 스테레오그래픽 출력과 같은 수단; 가상 현실 안경(묘사되지 않음), 홀로그래픽 디스플레이들 및 스모크 탱크들(묘사되지 않음)을 통해 2차원 시각적 출력 또는 3차원 초과 차원 출력을 출력할 수 있음), 및 프린터들(묘사되지 않음)을 포함할 수 있다.

컴퓨터 시스템(500)은 인간 액세스가능 저장 디바이스들 및 그것들의 연관된 매체 이를테면 CD/DVD가 있는 CD/DVD ROM/RW(520) 또는 유사 미디어(521)를 포함하는 광 매체들, 엄지 드라이브(thumb-drive)(522), 탈착식 하드 드라이브 또는 고체 상태 드라이브(523), 테이프와 플로피 디스크(묘사되지 않음)와 같은 레거시 자기 매체들, 보안 동글들(묘사되지 않음) 등과 같은 전문화된 ROM/ASIC/PLD 기반 디바이스들을 또한 포함할 수 있다.

본 기술분야의 통상의 기술자들은 또한 현재 개시된 발명의 주제에 관련하여 사용되는 바와 같은 "컴퓨터 판독가능 매체"라는 용어가 송신 매체, 반송파들, 또는 다른 일시적인 신호들을 반드시 포함하는 것은 아님이 이해해야 한다.

컴퓨터 시스템(500)은 하나 이상의 통신 네트워크들에 대한 인터페이스를 또한 포함할 수 있다. 네트워크들은 예를 들어 무선, 와이어라인, 광학적일 수 있다. 네트워크들은 추가로 로컬, 광역, 대도시, 차량 및 산업, 실시간, 지연 허용 등일 수 있다. 네트워크들의 예들은 이더넷과 같은 근거리 네트워크들, 무선 LAN들, GSM, 3G, 4G, 5G, LTE 등을 포함하는 셀룰러 네트워크들, 케이블 TV, 위성 TV, 및 지상파 브로드캐스트 TV를 포함하는 TV 와이어라인 또는 무선 광역 디지털 네트워크들, CANBus를 포함하는 차량 및 산업 등을 포함한다. 흔히 특정한 네트워크들은 특정 범용 데이터 포트들 또는 주변기기 버스들(549)(이를테면 컴퓨터 시스템(500)의 예를 들어 USB 포트들; 다른 것들은 흔히 아래에서 설명되는 바와 같이 시스템 버스에 부착에 의해 컴퓨터 시스템(500)의 코어 안으로(예를 들어 이더넷 인터페이스를 PC 컴퓨터 시스템 안으로 또는 셀룰러 네트워크 인터페이스를 스마트폰 컴퓨터 시스템 안으로 통합됨)에 부착되는 외부 네트워크 인터페이스 어댑터들을 요구한다. 이들 네트워크들 중 임의의 것을 사용하여, 컴퓨터 시스템(500)은 다른 엔티티들과 통신할 수 있다. 이러한 통신은 예를 들어 로컬 또는 광역 디지털 네트워크들을 사용하여 다른 컴퓨터 시스템들에 단방향, 수신 전용(예를 들어, 브로드캐스트 TV), 단방향 전송 전용(예를 들어 CANbus에서 특정 CANbus 디바이스들), 또는 양방향일 수 있다. 특정한 프로토콜들 및 프로토콜 스택들이 위에서 설명된 바와 같은 그들 네트워크들 및 네트워크 인터페이스들의 각각에서 사용될 수 있다.

전술한 인간 인터페이스 디바이스들, 인간 액세스가능 저장 디바이스들, 및 네트워크 인터페이스들은 컴퓨터 시스템(500)의 코어(540)에 부착될 수 있다.

코어(540)는 하나 이상의 중앙 프로세싱 유닛들(CPU)(541), 그래픽 프로세싱 유닛들(GPU)(542), 전문화된 프로그램가능 프로세싱 유닛들을 현장 프로그램가능 게이트 영역들(Field Programmable Gate Areas)(FPGA)(543), 특정한 태스크들을 위한 하드웨어 가속기들(544) 등의 형태로 포함할 수 있다. 이들 디바이스들은, 판독전용 메모리(Read-only memory)(ROM)(545), 랜덤 액세스 메모리(546), 내부 비사용자 액세스가능 하드 드라이브들, SSD들 등과 같은 내부 대용량 스토리지(547)와 함께, 시스템 버스(548)를 통해 연결될 수 있다. 일부 컴퓨터 시스템들에서, 시스템 버스(548)는 추가적인 CPU들, GPU 등에 의한 확장들을 가능하게 하는 하나 이상의 물리적 플러그들의 형태로 액세스 가능할 수 있다. 주변 디바이스들은 코어의 시스템 버스(548)에, 또는 주변기기 버스(549)를 통해 직접 부착될 수 있다. 주변기기 버스를 위한 아키텍처들은 PCI, USB 등을 포함한다.

CPU들(541), GPU들(542), FPGA들(543), 및 가속기들(544)은, 조합하여, 전술한 컴퓨터 코드를 구성할 수 있는 특정한 명령들을 실행할 수 있다. 해당 컴퓨터 코드는 ROM(545) 또는 RAM(546)에 저장될 수 있다. 임시 데이터는 RAM(546)에 또한 저장될 수 있는 반면, 영구적 데이터는 예를 들어, 내부 대용량 스토리지(547)에 저장될 수 있다. 메모리 디바이스들 중 임의의 것에 대한 고속 저장 및 취출은 하나 이상의 CPU(541), GPU(542), 대용량 스토리지(547), ROM(545), RAM(546) 등에 밀접하게 연관될 수 있는 캐시 메모리의 사용을 통해 가능하게 될 수 있다.

컴퓨터 판독가능 매체는 다양한 컴퓨터 구현 동작들을 수행하기 위한 컴퓨터 코드를 가질 수 있다. 매체 및 컴퓨터 코드는 본 개시내용의 목적들을 위해 특수하게 설계되고 구축될 수 있거나, 또는 그것들은 컴퓨터 소프트웨어 기술분야들에서 통상의 기술자들에게 널리 공지되고 그러한 기술자들이 이용 가능한 것일 수 있다.

비제한적인 예로서, 컴퓨터 시스템(500)과, 코어(540)는 하나 이상의 유형의 컴퓨터 판독가능 매체에 수록되는 소프트웨어를 실행하는 프로세서(들)(CPU들, GPU들, FPGA, 가속기들 등을 포함함)의 결과로서 기능을 제공할 수 있다. 이러한 컴퓨터 판독가능 매체들은 위에서 소개된 바와 같은 사용자 액세스가능 대용량 저장 뿐만 아니라 비일시적 특성으로 된 코어(540)의 특정한 저장에 연관되는 매체, 이를테면 코어 내부 대용량 스토리지(547) 또는 ROM(545)일 수 있다. 본 개시의 다양한 실시예들을 구현하는 소프트웨어는 이러한 디바이스들에 저장되고 코어(540)에 의해 실행될 수 있다. 컴퓨터 판독가능 매체가 특정 요구에 따라 하나 이상의 메모리 디바이스들 또는 칩들을 포함할 수 있다. 소프트웨어는 코어(540)와 구체적으로는 그 안의 프로세서들(CPU, GPU, FPGA 등을 포함함)이 RAM(546)에 저장되는 데이터 구조들을 정의하는 것과 이러한 데이터 구조들을 소프트웨어에 의해 정의되는 프로세스들에 따라 수정하는 것을 포함하여, 본 명세서에서 설명되는 특정 프로세스들 또는 특정 프로세스들의 특정 부분들을 실행하게 할 수 있다. 덧붙여서 또는 대안으로서, 컴퓨터 시스템은 본 개시에서 설명되는 특정 프로세스들 또는 특정 프로세스들의 특정 부분들을 실행하기 위해 소프트웨어 대신 또는 그러한 소프트웨어와 함께 동작할 수 있는 회로(예를 들어, 가속기(544))로 하드웨어적으로 배선되거나 또는 아니면 구현되는 로직의 결과로서 기능을 제공할 수 있다. 소프트웨어에 대한 언급은 로직을 포함할 수 있고, 적절한 경우, 그 반대의 경우도 성립한다. 컴퓨터 판독가능 매체에 대한 언급은, 적절한 경우, 실행을 위한 소프트웨어를 저장하는 회로(이를테면 집적 회로(IC)), 실행을 위한 로직을 구현하는 회로, 또는 둘 다를 포괄할 수 있다. 본 개시는 하드웨어 및 소프트웨어의 임의의 적합한 조합을 포함한다.

본 개시가 예시적인 여러 실시예들을 설명하였지만, 본 개시의 범위 내에 속하는 대체, 순열, 및 다양한 치환 등가물들이 있다. 따라서 본 기술분야의 통상의 기술자들은, 명시적으로 도시되거나 또는 설명되지 않았지만, 본 개시의 원리들을 구현하고 따라서 그 사상 및 범위 내에 있는 수많은 시스템들 및 방법들을 고안할 수 있다는 것이 이해될 것이다.

Claims

코딩된 비디오 비트스트림에서 액세스 단위(AU) 경계를 식별하는 방법으로서,
적어도 두 개의 네트워크 추상화 계층(NAL) 단위들 중 각각의 네트워크 추상화 계층 단위로부터의 적어도 하나의 필드로부터의 정보를 상관시키는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 적어도 두 개의 NAL 단위들의 픽처 헤더 및 슬라이스 헤더 중 적어도 하나로부터의 정보를 상관시키는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 적어도 두 개의 NAL 단위들 중 각각의 NAL 단위로부터의 적어도 하나의 필드로부터의 상기 정보의 상관 전에, 상기 적어도 두 개의 NAL 단위들의 NAL 단위 헤더들을 파싱하는 단계를 더 포함하는, 방법.
제2항에 있어서, 상기 적어도 두 개의 NAL 단위들 중 각각의 NAL 단위로부터의 적어도 하나의 필드로부터의 상기 정보 및 상기 적어도 두 개의 NAL 단위들의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나의 상기 상관 전에, 상기 적어도 두 개의 NAL 단위들의 NAL 단위 헤더들을 파싱하는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 적어도 두 개의 NAL 단위들 중 각각의 NAL 단위로부터의 적어도 하나의 필드로부터의 정보의 상기 상관 전에, 상기 적어도 두 개의 NAL 단위들 중 적어도 하나의 NAL 단위의 픽처 헤더 또는 슬라이스 헤더 중 적어도 하나를 파싱하는 단계를 더 포함하는, 방법.
제2항에 있어서, 상기 적어도 NAL 단위들 중 각각의 NAL 단위로부터의 적어도 하나의 필드로부터의 상기 정보 및 상기 적어도 두 개의 NAL 단위들의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나의 상기 상관 전에, 상기 적어도 두 개의 NAL 단위들 중 상기 적어도 하나의 NAL 단위의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나를 파싱하는 단계를 더 포함하는, 방법.
제3항에 있어서, 상기 적어도 두 개의 NAL 단위들 중 각각의 NAL 단위로부터의 적어도 하나의 필드로부터의 정보의 상기 상관 전에, 상기 적어도 두 개의 NAL 단위들 중 적어도 하나의 NAL 단위의 픽처 헤더 또는 슬라이스 헤더 중 적어도 하나를 파싱하는 단계를 더 포함하는, 방법.
제4항에 있어서, 상기 적어도 두 개의 NAL 단위들 중 각각의 NAL 단위로부터의 적어도 하나의 필드로부터의 상기 정보 및 상기 적어도 두 개의 NAL 단위들의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나의 상기 상관 전에, 상기 적어도 두 개의 NAL 단위들 중 상기 적어도 하나의 NAL 단위의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나를 파싱하는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 적어도 두 개의 NAL 단위들은 nalX 단위와 nalY 단위를 포함하는, 방법.
제9항에 있어서, 상기 nalX 단위가 상기 코딩된 비디오 비트스트림에서의 마지막 NAL 단위인지의 여부를 결정하는 단계를 더 포함하는, 방법.
코딩된 비디오 비트스트림에서 액세스 단위(AU) 경계를 식별하는 디비이스로서,
프로그램 코드를 저장하도록 구성되는 적어도 하나의 메모리;
상기 프로그램 코드를 판독하고 상기 프로그램 코드에 의해 지시된 대로 동작하도록 구성되는 적어도 하나의 프로세서
를 포함하며,
상기 프로그램 코드는,
상기 적어도 하나의 프로세서로 하여금 적어도 두 개의 네트워크 추상화 계층(NAL) 단위들 중 각각의 네트워크 추상화 계층 단위로부터의 적어도 하나의 필드로부터의 정보를 상관시키게 하도록 구성되는 제1 상관 코드
를 포함하는, 디바이스.
제11항에 있어서, 상기 프로그램 코드는 상기 적어도 하나의 프로세서로 하여금 상기 적어도 두 개의 NAL 단위들의 픽처 헤더 및 슬라이스 헤더 중 적어도 하나로부터의 정보를 상관시키게 하도록 구성되는 제2 상관 코드를 더 포함하는, 디바이스.
제11항에 있어서, 상기 프로그램 코드는 상기 적어도 두 개의 NAL 단위들의 NAL 단위 헤더들을 파싱하도록 구성되는 제1 파싱 코드를 더 포함하는, 디바이스.
제12항에 있어서, 상기 프로그램 코드는 상기 적어도 두 개의 NAL 단위들의 NAL 단위 헤더들을 파싱하도록 구성되는 제1 파싱 코드를 더 포함하는, 디바이스.
제11항에 있어서, 상기 프로그램 코드는 상기 적어도 두 개의 NAL 단위들 중 적어도 하나의 NAL 단위의 픽처 헤더 또는 슬라이스 헤더 중 적어도 하나를 파싱하도록 구성되는 파싱 코드를 더 포함하는, 디바이스.
제12항에 있어서, 상기 프로그램 코드는 상기 적어도 두 개의 NAL 단위들 중 상기 적어도 하나의 NAL 단위의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나를 파싱하도록 구성되는 파싱 코드를 더 포함하는, 디바이스.
제13항에 있어서, 상기 프로그램 코드는 상기 적어도 두 개의 NAL 단위들 중 적어도 하나의 NAL 단위의 픽처 헤더 또는 슬라이스 헤더 중 적어도 하나를 파싱하도록 구성되는 제2 파싱 코드를 더 포함하는, 디바이스.
제14항에 있어서, 상기 프로그램 코드는 상기 적어도 두 개의 NAL 단위들 중 상기 적어도 하나의 NAL 단위의 상기 픽처 헤더 및 상기 슬라이스 헤더 중 상기 적어도 하나를 파싱하도록 구성되는 제2 파싱 코드를 더 포함하는, 디바이스.
제11항에 있어서, 상기 적어도 두 개의 NAL 단위들은 nalX 단위와 nalY 단위를 포함하는, 디바이스.
명령들을 저장하는 비일시적 컴퓨터 판독가능 매체로서,
상기 명령들은, 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금, 적어도 두 개의 네트워크 추상화 계층(NAL) 단위들 중 각각의 네트워크 추상화 계층 단위로부터의 적어도 하나의 필드로부터의 정보를 상관시키게 하는 하나 이상의 명령들을 포함하는, 비일시적 컴퓨터 판독가능 매체.