KR20220042166A

KR20220042166A - Ivas 비트스트림들의 인코딩 및 디코딩

Info

Publication number: KR20220042166A
Application number: KR1020227006138A
Authority: KR
Inventors: 리샤브 티아기; 후안 펠릭스 토레스
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2019-08-01
Filing date: 2020-07-30
Publication date: 2022-04-04
Also published as: MX2022001152A; WO2021022087A1; CL2022000206A1; CN114175151A; CA3146169A1; US20220284910A1; AU2020320270A1; IL289449A; BR112022000230A2; EP4008000A1; TW202121399A; JP2022543083A

Abstract

몰입형 음성 및 오디오 서비스(IVAS) 비트스트림을 인코딩/디코딩하는 것은, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 모드 표시자를 인코딩/디코딩하는 단계, 비트스트림의 툴 헤더(TH) 섹션에서 모드 헤더 또는 툴 헤더를 인코딩/디코딩하는 단계―TH 섹션은 CH 섹션에 후속함―, 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 인코딩/디코딩하는 단계―MDP 섹션은 CH 섹션에 후속함―, 비트스트림의 EVS 페이로드(EP) 섹션에서 향상된 음성 서비스(EVS) 페이로드를 인코딩/디코딩하는 단계―EP 섹션은 CH 섹션에 후속함―, 및 인코더 측에서, 인코딩된 비트스트림을 저장 또는 스트리밍하는 단계, 및 디코더 측에서, 코딩 모드, 툴 헤더, EVS 페이로드 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어하거나 또는 이들의 표현을 저장하는 단계를 포함한다.

Description

IVAS 비트스트림들의 인코딩 및 디코딩

관련 출원들에 대한 상호 참조

본 출원은 2019년 8월 1일자로 출원된 미국 가특허 출원 번호 제62/881,541호, 2019년 10월 30일자로 출원된 미국 가특허 출원 번호 제62/927,894호, 2020년 6월 11일자로 출원된 미국 가특허 출원 번호 제63/037,721호, 및 2020년 7월 28일자로 출원된 미국 가특허 출원 번호 제63/057,666호에 대한 우선권을 주장하며, 이들 각각은 그 전체가 본 명세서에 참고로 포함된다.

기술분야

본 개시내용은 일반적으로 오디오 비트스트림 인코딩 및 디코딩에 관한 것이다.

음성 및 비디오 인코더/디코더("코덱") 표준 개발은 최근에 몰입형 음성 및 오디오 서비스(immersive voice and audio services)(IVAS)를 위한 코덱을 개발하는 것에 초점을 맞추어 왔다. IVAS는 모노-대-스테레오 업믹싱(mono to stereo upmixing) 및 완전 몰입형 오디오 인코딩, 디코딩 및 렌더링을 포함하지만 이에 제한되지 않는 다양한 오디오 서비스 능력들을 지원할 것으로 예상된다. IVAS는 모바일 및 스마트 폰들, 전자 태블릿들, 개인용 컴퓨터들, 회의 전화들, 회의실들, 가상 현실(VR) 및 증강 현실(AR) 디바이스들, 홈 시어터 디바이스들, 및 다른 적절한 디바이스들을 포함하지만 이에 제한되지 않는 광범위한 디바이스들, 엔드포인트들, 및 네트워크 노드들에 의해 지원되도록 의도된다. 이러한 디바이스들, 엔드포인트들 및 네트워크 노드들은 사운드 캡처 및 렌더링을 위한 다양한 음향 인터페이스들을 가질 수 있다.

IVAS 비트스트림들을 인코딩 및 디코딩하기 위한 구현들이 개시된다.

일부 구현들에서, 오디오 신호에 대한 비트스트림을 생성하는 방법은, 몰입형 음성 및 오디오 서비스(IVAS) 인코더를 이용하여, 코딩 모드 표시자(coding mode indicator) 또는 코딩 툴 표시자(coding tool indicator)를 결정하는 단계―코딩 모드 표시자 또는 코딩 툴 표시자는 오디오 신호에 대한 코딩 모드 또는 코딩 툴을 표시함―; IVAS 인코더를 이용하여, IVAS 비트스트림의 공통 헤더(common header)(CH) 섹션에서 코딩 모드 표시자 또는 코딩 툴 표시자를 인코딩하는 단계; IVAS 인코더를 이용하여, 모드 헤더 또는 툴 헤더를 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 툴 헤더(tool header)(TH) 섹션에서 모드 또는 툴 헤더를 인코딩하는 단계―TH 섹션은 CH 섹션에 후속함―; IVAS 인코더를 이용하여, 공간 메타데이터(spatial metadata)를 포함하는 메타데이터 페이로드(metadata payload)를 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 인코딩하는 단계―MDP 섹션은 CH 섹션에 후속함―; IVAS 인코더를 이용하여, 향상된 음성 서비스(enhanced voice services)(EVS) 페이로드를 결정하는 단계―EVS 페이로드는 오디오 신호의 각각의 채널 또는 다운믹스 채널에 대한 EVS 코딩된 비트들을 포함함―; 및 IVAS 인코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 EVS 페이로드를 인코딩하는 단계―EP 섹션은 CH 섹션에 후속함―를 포함한다.

일부 구현들에서, IVAS 비트스트림은 비일시적 컴퓨터 판독가능 매체 상에 저장된다. 다른 구현들에서, IVAS 비트스트림은 다운스트림 디바이스에 스트리밍되고, 코딩 모드 또는 코딩 툴 표시자, 모드 헤더 또는 툴 헤더, 메타데이터 페이로드 및 EVS 페이로드는 다운스트림 디바이스 또는 다른 디바이스 상의 오디오 신호의 재구성에 이용하기 위해 IVAS 비트스트림의 CH, TH, MDP 및 EP 섹션들로부터 각각 추출 및 디코딩된다.

일부 구현들에서, 오디오 신호에 대한 비트스트림을 디코딩하는 방법은, 몰입형 음성 및 오디오 서비스(IVAS) 디코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 모드 표시자 또는 코딩 툴 표시자를 추출 및 디코딩하는 단계―코딩 모드 표시자 또는 코딩 툴 표시자는 오디오 신호에 대한 코딩 모드 또는 코딩 툴을 표시함―; IVAS 디코더를 이용하여, IVAS 비트스트림의 툴 헤더(TH) 섹션에서 모드 헤더 또는 툴 헤더를 추출 및 디코딩하는 단계―TH 섹션은 CH 섹션에 후속함―; IVAS 디코더를 이용하여, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션으로부터 메타데이터 페이로드를 추출 및 디코딩하는 단계―MDP 섹션은 CH 섹션에 후속하고, 메타데이터 페이로드는 공간 메타데이터를 포함함―; 및 IVAS 디코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션으로부터 향상된 음성 서비스(EVS) 페이로드를 추출 및 디코딩하는 단계―EP 섹션은 CH 섹션에 후속하고, EVS 페이로드는 오디오 신호의 각각의 채널 또는 다운믹스 채널에 대한 EVS 코딩된 비트들을 포함함―를 포함한다.

일부 구현들에서, 다운스트림 디바이스의 오디오 디코더는, 다운스트림 디바이스 또는 다른 디바이스 상의 오디오 신호의 재구성에 이용하기 위해 코딩 모드 표시자 또는 코딩 툴 표시자, 모드 헤더 또는 툴 헤더, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 제어된다. 다른 구현들에서, 코딩 모드 표시자 또는 코딩 툴 표시자, 모드 헤더 또는 툴 헤더, EVS 페이로드, 및 메타데이터 페이로드의 표현은 비일시적 컴퓨터 판독가능 매체 상에 저장된다.

일부 구현들에서, 각각의 EVS 코딩된 채널 또는 다운믹스 채널에 대한 비트레이트는 EVS에 대한 총 이용가능한 비트들, SPAR 비트레이트 분포 제어 테이블 및 비트레이트 분포 알고리즘에 의해 결정된다.

일부 구현들에서, CH는 멀티-비트 데이터 구조이고, 여기서 멀티-비트 데이터 구조의 하나의 값은 공간 재구성(SPAR) 코딩 모드에 대응하고, 데이터 구조의 다른 값들은 다른 코딩 모드들에 대응한다.

일부 구현들에서, 선행하는 방법들은, 공간 재구성(SPAR) 비트레이트 분포 제어 테이블의 행 인덱스(row index)를 컴퓨팅하기 위한 인덱스 오프셋(index offset)을, IVAS 비트스트림의 TH 섹션에 각각 저장하거나 그로부터 판독하는 단계를 더 포함한다.

일부 구현들에서, 선행하는 방법들은, 양자화 전략 표시자(quantization strategy indicator); 비트스트림 코딩 전략 표시자; 및 계수들의 세트의 양자화 및 코딩된 실수부 및 허수부를, IVAS 비트스트림의 MDP 섹션에 각각 저장하거나 그로부터 판독하는 단계를 더 포함한다.

일부 구현들에서, 계수들의 세트는 예측 계수들(prediction coefficients), 직접 계수들(direct coefficients), 대각 실수 계수들(diagonal real coefficients) 및 하위 삼각 복소 계수들(lower triangle complex coefficients)을 포함한다.

일부 구현들에서, 예측 계수들은 엔트로피 코딩에 기초한 가변 비트 길이이고, 직접 계수들, 대각 실수 계수들 및 하위 삼각 복소 계수들은 다운믹스 구성 및 엔트로피 코딩에 기초한 가변 비트 길이이다.

일부 구현들에서, 양자화 전략 표시자는 양자화 전략을 표시하는 멀티-비트 데이터 구조이다.

일부 구현들에서, 비트스트림 코딩 전략 표시자는 공간 메타데이터의 대역들의 수 및 비-차동(non-differential) 또는 시간-차동(time-differential) 엔트로피 코딩 방식을 표시하는 멀티-비트 데이터 구조이다.

일부 구현들에서, 계수들의 양자화는 메타데이터 양자화 및 EVS 비트레이트 분포를 포함하는 EVS 비트레이트 분포 제어 전략에 따른다.

일부 구현들에서, 선행하는 방법들은, 3세대 파트너십 프로젝트(3GPP) 기술 사양(TS) 26.445에 따른 EVS 인스턴스들에 대한 EVS 페이로드를, IVAS 비트스트림의 EP 섹션에 각각 저장하거나 그로부터 판독하는 단계를 더 포함한다.

일부 구현들에서, 선행하는 방법들은, IVAS 비트스트림으로부터 비트레이트를 결정하는 단계; IVAS 비트스트림의 공간 재구성(SPAR) 툴 헤더(TH) 섹션으로부터 인덱스 오프셋을 판독하는 단계; 인덱스 오프셋을 이용하여 SPAR 비트레이트 분포 제어 테이블에 대한 테이블 행 인덱스를 결정하는 단계; IVAS 비트스트림에서의 메타데이터 페이로드(MDP) 섹션으로부터 양자화 전략 비트들 및 코딩 전략 비트들을 판독하는 단계; 양자화 전략 비트들 및 코딩 전략 비트들에 기초하여 IVAS 비트스트림의 MDP 섹션에서 SPAR 공간 메타데이터를 비양자화(unquantizing)하는 단계; 총 이용가능한 EVS 비트들 및 SPAR 비트레이트 분포 제어 테이블을 이용하여 IVAS 비트스트림에서의 각각의 채널에 대한 향상된 음성 서비스(EVS) 비트레이트를 결정하는 단계; EVS 비트레이트에 기초하여 IVAS 비트스트림의 EP 섹션으로부터 EVS 코딩된 비트들을 판독하는 단계; EVS 비트들을 디코딩하는 단계; 공간 메타데이터를 디코딩하는 단계; 및 디코딩된 EVS 비트들 및 디코딩된 공간 메타데이터를 이용하여 1차 앰비소닉스(first order Ambisonics)(FoA) 출력을 생성하는 단계를 더 포함한다.

본 명세서에 개시된 다른 구현들은 시스템, 장치 및 컴퓨터 판독가능 매체에 관한 것이다. 개시된 구현들의 상세들은 첨부 도면들 및 아래의 설명에서 개시된다. 다른 특징들, 목적들 및 이점들은 설명, 도면들 및 청구항들로부터 명백하다.

본 명세서에 개시된 특정 구현들은 다음의 이점들 중 하나 이상을 제공한다. 개시된 IVAS 비트스트림 포맷은 모노-대-스테레오 업믹싱 및 완전 몰입형 오디오 인코딩, 디코딩 및 렌더링을 포함하지만 이에 제한되지 않는 다양한 오디오 서비스 능력들을 지원하는 효율적이고 강건한 비트스트림 포맷이다. 일부 구현들에서, IVAS 비트스트림 포맷은 스테레오 오디오 신호들을 분석 및 다운믹싱하기 위한 CACPL(complex advance coupling)을 지원한다. 다른 구현들에서, IVAS 비트스트림 포맷은 1차 앰비소닉스(FoA) 오디오 신호들을 분석 및 다운믹싱하기 위한 공간 재구성(SPAR)을 지원한다.

도면들에서, 디바이스들, 유닛들, 명령 블록들 및 데이터 요소들을 나타내는 것들과 같은 개략적인 요소들의 특정 배열들 또는 순서들은 설명의 편의를 위해 도시된다. 그러나, 도면들에서의 개략적인 요소들의 특정 순서 또는 배열은 처리의 특정 순서 또는 시퀀스, 또는 프로세스들의 분리가 요구된다는 것을 암시하는 것을 의미하지 않는다는 점이 본 기술분야의 통상의 기술자들에 의해 이해되어야 한다. 또한, 도면에서의 개략적인 요소의 포함은 그러한 요소가 모든 실시예들에서 요구된다는 것을 암시하는 것을 의미하지 않거나, 그러한 요소에 의해 표현되는 특징들이 일부 구현들에서 다른 요소들에 포함되거나 다른 요소들과 조합되지 않을 수 있다는 것을 암시하는 것을 의미하지 않는다.
또한, 실선 또는 파선 또는 화살표들과 같은 접속 요소들이 2개 이상의 다른 개략적인 요소들 사이의 또는 그 중에서의 접속, 관계 또는 연관을 예시하기 위해 이용되는 도면들에서, 임의의 그러한 접속 요소들의 부재는 접속, 관계 또는 연관이 존재하지 않을 수 있음을 암시하는 것을 의미하지 않는다. 즉, 요소들 사이의 일부 접속들, 관계들 또는 연관들은 본 개시내용을 불명료하게 하지 않기 위해 도면들에 도시되지 않는다. 또한, 예시의 편의를 위해, 단일의 접속 요소가 요소들 사이의 다수의 접속들, 관계들 또는 연관들을 표현하기 위해 이용된다. 예를 들어, 접속 요소가 신호들, 데이터 또는 명령들의 통신을 표현하는 경우, 본 기술 분야의 통상의 기술자는 그러한 요소가 통신에 영향을 주기 위해 필요할 수 있는 바와 같이 하나 또는 다수의 신호 경로를 표현한다는 것을 이해해야 한다.
도 1은 실시예에 따른, IVAS 시스템을 도시한다.
도 2는 실시예에 따른, IVAS 비트스트림들을 인코딩 및 디코딩하기 위한 시스템의 블록도이다.
도 3은 실시예에 따른, FoA 포맷으로 IVAS 비트스트림들을 인코딩 및 디코딩하기 위한 FoA 코더/디코더("코덱")의 블록도이다.
도 4a는 실시예에 따른, IVAS 인코딩 프로세스의 흐름도이다.
도 4b는 실시예에 따른, 대안적인 IVAS 포맷을 이용하는 IVAS 인코딩 프로세스의 흐름도이다.
도 5a는 실시예에 따른, IVAS 디코딩 프로세스의 흐름도이다.
도 5b는 실시예에 따른, 대안적인 IVAS 포맷을 이용하는 IVAS 디코딩 프로세스의 흐름도이다.
도 6은 실시예에 따른, IVAS SPAR 인코딩 프로세스의 흐름도이다.
도 7은 실시예에 따른, IVAS SPAR 디코딩 프로세스의 흐름도이다.
도 8은 실시예에 따른, 예시적인 디바이스 아키텍처의 블록도이다.
다양한 도면들에서 이용된 동일한 참조 기호는 유사한 요소들을 나타낸다.

다음의 상세한 설명에서는, 다양한 설명된 실시예들의 철저한 이해를 제공하기 위해 다수의 특정 상세들이 개시된다. 다양한 설명된 구현들이 이러한 특정 상세들 없이 실시될 수 있다는 점이 본 기술분야의 통상의 기술자에게 명백할 것이다. 다른 경우들에서, 잘 알려진 방법들, 절차들, 컴포넌트들, 및 회로들은 실시예들의 양태들을 불필요하게 모호하게 하지 않도록 상세히 설명되지 않았다. 서로 독립적으로 또는 다른 특징들의 임의의 조합과 함께 각각 이용될 수 있는 여러 특징들이 이하에서 설명된다.

명명법

본 명세서에서 이용되는 바와 같이, "포함한다(includes)"라는 용어 및 그의 변형들은 "포함하지만, 그것으로 제한되지 않는(includes, but is not limited to)"을 의미하는 개방형 용어들로서 읽혀져야 한다. "또는(or)"이라는 용어는 문맥상 명확하게 달리 지시하지 않는 한 "및/또는(and/or)"으로서 읽혀져야 한다. "기초하는(based on)"이라는 용어는 "적어도 부분적으로 기초하는(based at least in part on)"으로서 읽혀져야 한다. "하나의 예시적인 구현" 및 "예시적인 구현"이라는 용어는 "적어도 하나의 예시적인 구현"으로서 읽혀져야 한다. "다른 구현"이라는 용어는 "적어도 하나의 다른 구현"으로서 읽혀져야 한다. "결정된(determined)", "결정한다(determines)", 또는 "결정하는(determining)"이라는 용어들은 획득, 수신, 컴퓨팅, 계산, 추정, 예측 또는 도출로서 읽혀져야 한다. 또한, 이하의 설명 및 청구항들에서, 달리 정의되지 않는 한, 본 명세서에서 이용되는 모든 기술적 및 과학적 용어들은 본 개시내용이 속하는 기술분야의 통상의 기술자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.

IVAS 시스템 개요

도 1은 하나 이상의 구현예에 따른, IVAS 시스템(100)을 도시한다. 일부 구현들에서, 다양한 디바이스들은, 예를 들어, PSTN/다른 PLMN(104)에 의해 예시된 PSTN(public switched telephone network) 또는 PLMN(public land mobile network device)으로부터 오디오 신호들을 수신하도록 구성되는 호출 서버(call server)(102)를 통해 통신한다. IVAS 시스템(100)은, 이에 제한되는 것은 아니지만, 향상된 음성 서비스(EVS), AMR-WB(multi-rate wideband) 및 AMR-NB(adaptive multi-rate narrowband)를 지원하는 디바이스들을 포함하여, 오디오를 모노로만 렌더링 및 캡처하는 레거시 디바이스들(106)을 지원한다. IVAS 시스템(100)은 또한 스테레오 오디오 신호들을 캡처 및 렌더링하는 사용자 장비(UE)(108, 114)를 지원하거나, 또는 모노 신호들을 캡처하고 멀티채널 신호들로 바이노럴 방식으로(binaurally) 렌더링하는 UE(110)를 지원한다. IVAS 시스템(100)은 또한 비디오 회의실 시스템들(116, 118)에 의해 각각 캡처 및 렌더링되는 몰입형 및 스테레오 신호들을 지원한다. IVAS 시스템(100)은 또한 홈 시어터 시스템들을 위한 스테레오 오디오 신호들의 스테레오 캡처 및 몰입형 렌더링, 및 가상 현실(VR) 기어(122) 및 몰입형 콘텐츠 인제스트(124)를 위한 오디오 신호들의 모노 캡처 및 몰입형 렌더링을 지원한다.

예시적인 IVAS 인코딩/디코딩 시스템들

도 2는 하나 이상의 구현에 따른, IVAS 비트스트림들을 인코딩 및 디코딩하기 위한 시스템(200)의 블록도이다. 인코딩을 위해, IVAS 인코더는 모노 신호들, 스테레오 신호들, 바이노럴 신호들, 공간 오디오 신호들(예를 들어, 멀티-채널 공간 오디오 오브젝트들), FoA, 고차 앰비소닉스(HoA) 및 임의의 다른 오디오 데이터를 포함하지만 이에 제한되지 않는 오디오 데이터(201)를 수신하는 공간 분석 및 다운믹스 유닛(202)을 포함한다. 일부 구현들에서, 공간 분석 및 다운믹스 유닛(202)은 스테레오 오디오 신호들을 분석/다운믹싱하기 위한 CACPL 및/또는 FoA 오디오 신호들을 분석/다운믹싱하기 위한 SPAR을 구현한다. 다른 구현들에서, 공간 분석 및 다운믹스 유닛(202)은 다른 포맷들을 구현한다.

공간 분석 및 다운믹스 유닛(202)의 출력은 공간 메타데이터, 및 오디오의 1-4 채널들을 포함한다. 공간 메타데이터는 공간 데이터를 양자화 및 엔트로피 코딩하는 양자화 및 엔트로피 코딩 유닛(203)에 입력된다. 일부 구현들에서, 양자화는 미세(fine), 중간(moderate), 거친(coarse) 및 추가의 거친(extra coarse) 양자화 전략들을 포함할 수 있고, 엔트로피 코딩은 허프만 또는 산술 코딩을 포함할 수 있다. 향상된 음성 서비스(EVS) 인코딩 유닛(206)은 오디오의 1-4 채널들을 하나 이상의 EVS 비트스트림으로 인코딩한다.

일부 구현들에서, EVS 인코딩 유닛(206)은 3GPP TS 26.445를 준수하고, 협대역(EVS-NB) 및 광대역(EVS-WB) 스피치 서비스들에 대한 향상된 품질 및 코딩 효율, 초광대역(EVS-SWB) 스피치를 이용한 향상된 품질, 대화 애플리케이션들에서의 혼합된 콘텐츠 및 음악에 대한 향상된 품질, 패킷 손실 및 지연 지터에 대한 강건성, 및 AMR-WB 코덱에 대한 역방향 호환성과 같은 광범위한 기능들을 제공한다. 일부 구현들에서, EVS 인코딩 유닛(206)은 모드/비트레이트 제어(207)에 기초하여 스피치 신호들을 인코딩하기 위한 스피치 코더(speech coder)와 지정된 비트레이트로 오디오 신호들을 인코딩하기 위한 지각 코더(perceptual coder) 사이에서 선택하는 전처리 및 모드 선택 유닛을 포함한다. 일부 구현들에서, 스피치 인코더는 상이한 스피치 클래스들에 대한 특수화된 LP-기반 모드들로 확장되는, 대수 코드-여기 선형 예측(algebraic code-excited linear prediction)(ACELP)의 개선된 변형이다. 일부 구현들에서, 오디오 인코더는 낮은 지연/낮은 비트레이트들에서 증가된 효율을 갖는 수정된 이산 코사인 변환(modified discrete cosine transform)(MDCT) 인코더이고, 스피치 및 오디오 인코더들 사이에서 끊김 없고(seamless) 신뢰성 있는 스위칭을 수행하도록 설계된다.

일부 구현들에서, IVAS 디코더는 공간 메타데이터를 복구하도록 구성된 양자화 및 엔트로피 디코딩 유닛(204), 및 1-4 채널 오디오 신호들을 복구하도록 구성된 EVS 디코더(들)를 포함한다. 복구된 공간 메타데이터 및 오디오 신호들은 공간 합성/렌더링 유닛(209)에 입력되고, 공간 합성/렌더링 유닛은 다양한 오디오 시스템들(210) 상에서의 재생을 위해 공간 메타데이터를 이용하여 오디오 신호들을 합성/렌더링한다.

예시적인 IVAS/SPAR 코덱

도 3은 일부 구현들에 따른, SPAR 포맷의 FoA를 인코딩 및 디코딩하기 위한 FoA 코덱(300)의 블록도이다. FoA 코덱(300)은 SPAR FoA 인코더(301), EVS 인코더(305), SPAR FoA 디코더(306) 및 EVS 디코더(307)를 포함한다. FoA 코덱(300)은 FoA 입력 신호를 디코더들(306, 307)에서 입력 신호를 재생성하는데 이용되는 다운믹스 채널들 및 파라미터들의 세트로 변환한다. 다운믹스 신호들은 1 내지 4 채널들로 변할 수 있고, 파라미터들은 예측 계수들(PR), 교차-예측 계수들(C), 및 역상관 계수들(P)을 포함한다. SPAR은 아래에 더 상세히 설명되는 바와 같이, PR, C 및 P 파라미터들을 이용하여 오디오 신호의 다운믹스 버전으로부터 오디오 신호를 재구성하는데 이용되는 프로세스라는 점에 유의한다.

도 3에 도시된 예시적인 구현은 수동(passive) W 채널을 가정하고, 공칭 2-채널 다운믹스를 도시하며, 여기서 W 채널은 단일 예측된 채널 Y'으로 수정되지 않고 디코더(306)에 전송된다는 점에 유의한다. 다른 구현들에서, W는 능동(active) 채널일 수 있다. 능동 W 채널은 다음과 같이 W 채널로의 X, Y, Z 채널들의 일부 믹싱을 허용한다:

여기서, f는 W 채널로의 X, Y, Z 채널들 중 일부의 믹싱을 허용하는 상수(예를 들어, 0.5)이고, pry, prx 및 prz는 예측(PR) 계수들이다. 수동 W에서, f=0이므로, W 채널로의 X, Y, Z 채널들의 믹싱은 없다.

아래에 더 상세히 설명되는 바와 같이, C 계수들은 X 및 Z 채널들 중 일부가 Y'으로부터 재구성되게 하고, 나머지 채널들은 아래에 더 상세히 설명되는 바와 같이, W 채널의 역상관된 버전들에 의해 재구성된다.

일부 구현들에서, SPAR FoA 인코더(301)는 수동/능동 예측기 유닛(302), 리믹스 유닛(remix unit)(303) 및 추출/다운믹스 선택 유닛(304)을 포함한다. 수동/능동 예측기는 4-채널 B-포맷(W, Y, Z, X)으로 FoA 채널들을 수신하고, 예측된 채널들(W 또는 W', Y', Z', X')을 컴퓨팅한다. W 채널은 동일한 이득 및 위상에서의 모든 방향들로부터 오는, 구(sphere)에서의 모든 사운드들을 포함하는 전방향성 폴라 패턴(omni-directional polar pattern)이고, X는 전방을 지시하는 8자형 양방향성 폴라 패턴(figure-8 bi-directional polar pattern )이고, Y는 좌측을 지시하는 8자형 양방향성 폴라 패턴이고, Z는 상방을 지시하는 8자형 양방향성 폴라 패턴이라는 점에 유의한다.

추출/다운믹스 선택 유닛(304)은 아래에 더 상세히 설명되는 바와 같이, IVAS 비트스트림의 메타데이터 페이로드 섹션으로부터 SPAR FoA 메타데이터를 추출한다. 수동/능동 예측기 유닛(302) 및 리믹스 유닛(303)은 SPAR FoA 메타데이터를 이용하여, 디코더(306)로 전송될 IVAS 비트스트림에 캡슐화되는 EVS 비트스트림으로 인코딩되도록 EVS 인코더(305)에 입력되는 리믹싱된 FoA 채널들(W 또는 W', A', B', C')을 생성한다. 이 예에서 앰비소닉(Ambisonic) B-포맷 채널들은 AmbiX 컨벤션(convention)으로 배열된다는 점에 유의한다. 그러나, Furse-Malham(FuMa) 컨벤션(W, X, Y, Z)과 같은 다른 컨벤션들도 이용될 수 있다는 점에 유의한다.

SPAR FoA 디코더(306)를 참조하면, EVS 비트스트림은 EVS 디코더(307)에 의해 디코딩되어 N(예를 들어, N=4)개의 다운믹스 채널들을 생성한다. 일부 구현들에서, SPAR FoA 디코더(306)는 SPAR 인코더(301)에 의해 수행되는 동작들의 역을 수행한다. 예를 들어, 리믹싱된 FoA 채널들(W 또는 W', A', B', C')은 SPAR FoA 공간 메타데이터를 이용하여 N개의 다운믹스 채널들로부터 복구된다. 리믹싱된 SPAR FoA 채널들은 예측된 SPAR FoA 채널들(W 또는 W', Y', Z', X')을 복구하기 위해 역 믹서(inverse mixer)(311)에 입력된다. 예측된 SPAR FoA 채널들은 그 후 원래의 믹싱되지 않은 SPAR FoA 채널들(W, Y, Z, X)을 복구하기 위해 역 예측기(inverse predictor)(312)에 입력된다. 이 2-채널 예에서, 역상관기 블록들((309a)(dec₁)...309n(dec_D))은 시간 도메인 또는 주파수 도메인 역상관기를 이용하여 W 채널의 역상관된 버전들을 생성하는데 이용된다는 점에 유의한다. 역상관된 채널들은 X 및 Z 채널들을 완전히 또는 파라미터적으로 재구성하기 위해 SPAR FoA 메타데이터와 조합하여 이용된다.

일부 구현들에서, 다운믹스 채널들의 수에 따라, FoA 입력들 중 하나는 그대로 SPAR FoA 디코더(306)에 전송되고(W 채널), 다른 채널들(Y, Z, 및 X) 중 1개 내지 3개는 잔류들(residuals)로서 또는 완전히 파라미터적으로 SPAR FoA 디코더(306)에 전송된다. 다운믹스 채널들의 수 N에 관계없이 동일하게 유지되는 PR 계수들은 잔류 다운믹스 채널들에서 예측가능한 에너지를 최소화하는데 이용된다. C 계수들은 잔류들로부터 완전히 파라미터화된 채널들을 재생성하는데 더 도움을 주기 위해 이용된다. 이와 같이, C 계수들은 잔류 채널들 또는 예측할 파라미터화된 채널들이 없는 1개 및 4개의 채널 다운믹스 경우들에서 요구되지 않는다. P 계수들은 PR 및 C 계수들에 의해 고려되지 않은 나머지 에너지를 채우는데 이용된다. P 계수들의 수는 각각의 대역에서 다운믹스 채널들 N의 수에 의존한다. 일부 구현들에서, SPAR PR 계수들(오직 수동 W)은 다음과 같이 계산된다.

단계 1. 수학식 1을 이용하여 메인 W 신호로부터 모든 사이드 신호들 (Y, Z, X)을 예측한다.

여기서, 예로서, 예측된 채널 Y'에 대한 예측 파라미터는 수학식 2를 이용하여 계산된다.

여기서,

는 신호들 A 및 B에 대응하는 입력 공분산 행렬(input covariance matrix)의 요소이다. 유사하게, Z' 및 X' 잔류 채널들은 대응하는 예측 파라미터들 prz 및 prx를 갖는다. PR은 예측 계수들

의 벡터이다.

단계 2. W 및 예측된 (Y', Z', X') 신호들을 가장 음향적으로 관련이 있는 것으로부터 가장 음향적으로 관련이 없는 것으로 리믹싱하며, 여기서 "리믹싱"은 어떤 방법에 기초하여 신호를 재정렬 또는 재결합하는 것을 의미한다.

리믹싱의 일 구현은, 좌측 및 우측으로부터의 오디오 큐(cue)들이 전후보다 음향적으로 더 관련되고, 전후 큐들이 상하 큐들보다 음향적으로 더 관련된다는 가정 하에, 입력 신호들을 W, Y', X', Z'로 재정렬하는 것이다.

단계 3. 수학식 4 및 5에 나타낸 바와 같이 4 채널 사후 예측 및 리믹싱 다운믹스의 공분산을 계산한다.

여기서, d는 W를 넘는 여분의 다운믹스 채널들(즉, 제2 내지 Ndmx 채널들)을 나타내고, u는 완전히 재생성될 필요가 있는 채널들(즉, 제(Ndmx+1) 내지 제4 채널들)을 나타낸다.

1-4 채널들을 갖는 WABC 다운믹스의 예에 대해, d 및 u는 표 I에 도시된 다음의 채널들을 표현한다:

표 I - d 및 u 채널 표현들

R_dd, R_ud 및 R_uu 양(quantity)들이 SPAR FoA 메타데이터의 계산에 대한 주요 관심사이다. R_dd, R_ud 및 R_uu 양들로부터, 시스템은 디코더로 전송되는 잔류 채널들로부터 완전 파라메트릭 채널들의 임의의 나머지 부분을 교차 예측하는 것이 가능한지를 결정한다. 일부 구현들에서, 요구되는 여분의 C 계수들은 다음과 같이 주어진다:

따라서, C 파라미터는 3-채널 다운믹스에 대해 (1×2), 및 2-채널 다운믹스에 대해 (2×1)의 형상을 갖는다.

단계 4. 역상관기들에 의해 재구성되어야 하는 파라미터화된 채널들에서 나머지 에너지를 계산한다. 업믹스 채널들 Res_uu에서의 잔류 에너지는 실제 에너지 R_uu(사후 예측)와 재생성된 교차 예측 에너지 Reg_uu 사이의의 차이이다.

P는 또한 공분산 행렬이고, 따라서 에르미트 대칭(Hermitian symmetric)이며, 따라서 상부 또는 하부 삼각형으로부터의 파라미터들만이 디코더(306)로 전송될 필요가 있다. 대각선 엔트리들은 실수인 반면, 비-대각선 요소들은 복소수일 수 있다.

IVAS 비트스트림들의 예시적인 인코딩/디코딩

도 2 및 도 3을 참조하여 설명된 바와 같이, IVAS 비트스트림(들)은 IVAS 코덱에 의해 인코딩 및 디코딩된다. 일부 구현들에서, IVAS 인코더는 IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자 및 샘플링 레이트 표시자를 결정 및 인코딩한다. 일부 구현들에서, 코딩 툴 표시자는 코딩 툴들에 대응하는 값들을 포함하고, 샘플링 레이트 표시자는 샘플링 레이트를 표시하는 값들을 포함한다. IVAS 인코더는 비트스트림의 EVS 페이로드(EP) 섹션에서 EVS 페이로드를 결정 및 인코딩한다. EP 섹션은 CH 섹션에 후속한다. IVAS 인코더는 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 결정 및 인코딩한다. 일부 구현들에서, MDP 섹션은 CH 섹션에 후속한다. 다른 구현들에서, MDP 섹션은 비트스트림의 EP 섹션에 후속하거나, EP 섹션은 비트스트림의 MDP 섹션에 후속한다. 일부 구현들에서, IVAS 인코더는 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장하거나, 비트스트림을 다운스트림 디바이스에 스트리밍한다. 다른 구현들에서, IVAS 인코더는 도 8에 도시된 디바이스 아키텍처를 포함한다.

일부 구현들에서, IVAS 디코더는 IVAS 비트스트림을 수신하고, IVAS 인코더에 의해 IVAS 포맷으로 인코딩된 오디오 데이터를 추출 및 디코딩한다. IVAS 디코더는 IVAS 비트스트림의 CH 섹션에서 코딩 툴 표시자 및 샘플링 레이트 표시자를 추출 및 디코딩한다. IVAS 디코더는 비트스트림의 EP 섹션에서 EVS 페이로드를 추출 및 디코딩한다. EP 섹션은 CH 섹션에 후속한다. IVAS 디코더는 비트스트림의 MDP 섹션에서 메타데이터 페이로드를 추출 및 디코딩한다. MDP 섹션은 CH 섹션에 후속한다. 다른 구현들에서, MDP 섹션은 비트스트림의 EP 섹션에 후속하거나, EP 섹션은 비트스트림의 MDP 섹션에 후속한다. 일부 구현들에서, IVAS 시스템은 코딩 툴, 샘플링 레이트, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어한다. 다른 구현들에서, IVAS 시스템은 코딩 툴, 샘플링 레이트, EVS 페이로드, 및 메타데이터 페이로드의 표현을 비일시적 컴퓨터 판독가능 매체 상에 저장한다. 일부 구현들에서, IVAS 디코더는 도 8에 도시된 디바이스 아키텍처를 포함한다.

일부 구현들에서, IVAS 코딩 툴 표시자는 멀티-비트 데이터 구조이다. 다른 구현들에서, IVAS 코딩 툴 표시자는 3-비트 데이터 구조이고, 여기서 3-비트 데이터 구조의 제1 값은 멀티 모노 코딩 툴에 대응하고, 3-비트 데이터 구조의 제2 값은 CACPL 코딩 툴에 대응하고, 3-비트 데이터 구조의 제3 값은 다른 코딩 툴에 대응한다. 다른 구현들에서, IVAS 코딩 툴 표시자는 1개 내지 4개의 IVAS 코딩 툴들을 나타내는 2-비트 데이터 구조, 또는 1개 또는 2개의 IVAS 코딩 툴들을 나타내는 1-비트 데이터 구조이다. 다른 구현들에서, IVAS 코딩 툴 표시자는 상이한 IVAS 코딩 툴들을 나타내는 3개 이상의 비트들을 포함한다.

일부 구현들에서, 입력 샘플링 레이트 표시자는 상이한 입력 샘플링 레이트들을 표시하는 멀티-비트 데이터 구조이다. 일부 구현들에서, 입력 샘플링 레이트 표시자는 2-비트 데이터 구조이고, 2-비트 데이터 구조의 제1 값은 8kHz 샘플링 레이트를 표시하고, 2-비트 데이터 구조의 제2 값은 16kHz 샘플링 레이트를 표시하고, 2-비트 데이터 구조의 제3 값은 32kHz 샘플링 레이트를 표시하고, 2-비트 데이터 구조의 제4 값은 48kHz 샘플링 레이트를 표시한다. 다른 구현들에서, 입력 샘플링 레이트 표시자는 1개 또는 2개의 샘플링 레이트를 표시하는 1-비트 데이터 구조이다. 다른 구현들에서, 입력 샘플링 레이트 표시자는 상이한 샘플링 레이트들을 표시하는 3개 이상의 비트들을 포함한다.

일부 구현들에서, 시스템은, 3세대 파트너십 프로젝트(3GPP) 기술 사양(TS) 26.445에 기술된 바와 같이, EVS 채널들의 수; EVS 채널들의 수 표시자(a number of EVS channels indicator); 비트레이트(BR) 추출 모드 표시자; EVS BR 데이터; 및 모든 채널들에 대한 EVS 페이로드들을, 비트스트림의 EP 섹션에 그 순서로 저장하거나 그로부터 판독한다.

다른 구현예에서, 시스템은 EVS 채널들의 수 표시자를 비트스트림의 EP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, 시스템은 비트레이트(BR) 추출 모드 표시자를 비트스트림의 EP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, 시스템은 EVS BR 데이터를 비트스트림의 EP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, 시스템은, 3세대 파트너십 프로젝트(3GPP) 기술 사양(TS) 26.445에 기술된 바와 같이, 모든 채널들에 대한 EVS 페이로드들을 비트스트림의 EP 섹션에 그 순서로 저장하거나 그로부터 판독한다.

일부 구현들에서, IVAS 시스템은 코딩 기술 표시자; 대역들의 수 표시자; 필터뱅크의 지연 구성을 표시하는 표시자; 양자화 전략의 표시자; 엔트로피 코더 표시자; 확률 모델 타입 표시자; 계수 실수부; 계수 허수부; 및 하나 이상의 계수를, 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 코딩 기술 표시자를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 대역들의 수 표시자를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 필터뱅크의 지연 구성을 표시하는 표시자를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 양자화 전략의 표시자를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 엔트로피 코더 표시자를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 확률 모델 타입 표시자를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 계수 실수부를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다. 다른 구현들에서, IVAS 시스템은 계수 허수부를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, IVAS 시스템은 하나 이상의 계수를 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

IVAS 비트스트림 포맷들의 일부 예들이 아래에 예시된다.

예시적인 IVAS 비트스트림 포맷들 - 3 세분 포맷

일부 구현들에서, IVAS 비트스트림 포맷은 다음과 같이 3개의 세분을 포함한다.

일부 구현들에서, 각각의 세분에서의 각각의 필드에서의 파라미터들 및 그 각자의 비트 할당들이 이하에서 기술된다.

공통 헤더(CH):

EVS 페이로드 ( EP ):

메타데이터 페이로드 ( MDP ):

전술한 IVAS 비트스트림 포맷 실시예의 이점은, 모노-대-스테레오 업믹싱 및 완전 몰입형 오디오 인코딩, 디코딩 및 렌더링을 포함하지만 이에 제한되지 않는 다양한 오디오 서비스 능력들을 지원하는 데이터를 효율적이고 콤팩트하게 인코딩한다는 것이다. 그것은 또한, 모바일 및 스마트 폰들, 전자 태블릿들, 개인용 컴퓨터들, 회의 전화들, 회의실들, 가상 현실(VR) 및 증강 현실(AR) 디바이스들, 홈 시어터 디바이스들, 및 다른 적절한 디바이스들을 포함하지만 이에 제한되지 않는 광범위한 디바이스들, 엔드포인트들, 및 네트워크 노드들에 의해 지원하고, 이들 각각은 사운드 캡처 및 렌더링을 위한 다양한 음향 인터페이스들을 가질 수 있다. IVAS 비트스트림 포맷은 IVAS 표준 및 기술과 함께 용이하게 진화할 수 있도록 확장가능하다.

예시적인 IVAS 비트스트림 포맷들 - 4 세분 포맷

추가 실시예의 다음의 설명은 그것과 이전에 설명된 실시예 사이의 차이점들에 초점을 맞출 것이다. 따라서, 양 실시예들에 공통인 특징들은 다음의 설명으로부터 생략될 수 있고, 그렇다면, 이전에 설명된 실시예들의 특징들은, 그것의 다음의 설명이 달리 요구되지 않는 한, 추가 실시예에서 구현되거나 적어도 구현될 수 있다고 가정되어야 한다. 추가적으로, 특징이 아래에 개시되고 청구항에 추가되는 구현으로부터 취해질 때, 특징은 구현의 다른 특징들과 관련되지 않거나 불가분하게 연결되지 않을 수 있다.

다른 구현들에서, IVAS 비트스트림은 다음과 같이 4개의 세분을 포함한다.

일부 구현들에서, IVAS 인코더는 IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자를 결정 및 인코딩한다. 코딩 툴 표시자는 코딩 툴들에 대응하는 값들을 포함한다. IVAS 인코더는 IVAS 비트스트림의 공통 공간 코딩 툴 헤더(CTH) 섹션에서 IVAS 비트레이트 분포 제어 테이블에 대한 행 인덱스를 결정 및 인코딩한다. CTH 섹션은 CH 섹션에 후속한다. IVAS 인코더는 IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 EVS 페이로드를 결정 및 인코딩한다. EP 섹션은 CH 섹션에 후속한다. IVAS 인코더는 IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 결정 및 인코딩한다. MDP 섹션은 CH 섹션에 후속한다.

일부 구현들에서, EP 섹션은 하나 이상의 파라미터에 따라 MDP 섹션 이전 또는 이후에 온다. 일부 구현들에서, 하나 이상의 파라미터는 3GPP TS 26.445에 설명된 바와 같이, 공칭 비트레이트 모드들을 갖는 멀티채널 입력의 모노 다운믹스의 역방향 호환성 모드를 포함한다.

일부 구현들에서, IVAS 시스템은 IVAS 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장한다. 다른 구현들에서, IVAS 시스템은 비트스트림을 다운스트림 디바이스에 스트리밍한다. 일부 구현들에서, IVAS 인코더는 도 8에 도시된 디바이스 아키텍처를 포함한다.

일부 구현들에서, IVAS 디코더는 IVAS 비트스트림을 수신하고, IVAS 인코더에 의해 IVAS 포맷으로 인코딩된 오디오 데이터를 추출 및 디코딩한다. IVAS 디코더는 IVAS 비트스트림의 CH 섹션에서 코딩 툴 표시자를 추출 및 디코딩한다. IVAS 디코더는 IVAS 비트레이트 분포 제어 테이블에 대한 인덱스를 추출 및 디코딩한다. IVAS 디코더는 IVAS 비트스트림의 EP 섹션에서 EVS 페이로드를 추출 및 디코딩한다. EP 섹션은 CH 섹션에 후속한다. IVAS 디코더는 IVAS 비트스트림의 MDP 섹션에서 메타데이터 페이로드를 추출 및 디코딩한다. MDP 섹션은 CH 섹션에 후속한다.

일부 구현들에서, IVAS 시스템은 코딩 툴, IVAS 비트레이트 분포 제어 테이블에 대한 인덱스, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어한다. 다른 구현들에서, IVAS 시스템은 코딩 툴, IVAS 비트레이트 분포 제어 테이블에 대한 인덱스, EVS 페이로드, 및 메타데이터 페이로드의 표현을 비일시적 컴퓨터 판독가능 매체 상에 저장한다. 일부 구현들에서, IVAS 디코더는 도 8에 도시된 디바이스 아키텍처를 포함한다.

공통 헤더(CH):

공통 공간 코딩 툴 헤더( CTH ):

메타데이터 페이로드(MDP):

IVAS 비트레이트 분포 제어 테이블의 이점은 공간 코딩 모드들에 관한 정보를 캡처하여, 공간 코딩 모드들에 관한 정보가 MDP 섹션에 포함될 필요가 없다는 것이다.

EVS 페이로드(EP):

페이로드의 이 섹션은 하나 이상의 오디오 다운믹스 채널에 대한 EVS 코딩된 비트들을 포함한다. 일부 구현들에서, 이 섹션에서의 비트들의 총 수는

에 의해 주어질 수 있고, 여기서 N(예를 들어, N=4)은 코딩될 요구된 오디오 다운믹스 채널들의 수이고, EVS_BR (i)는 i번째 오디오 다운믹스 채널에 대한 계산된 EVS 비트레이트이고, stride_secs는 초 단위의 입력 스트라이드(stride) 길이이다.

일부 구현들에서, IVAS 비트레이트 분포 제어 테이블에서의 각각의 테이블 엔트리는 EVS에 대해 할당된 총 비트들로부터 각각의 EVS 인스턴스의 비트레이트를 추출하기에 충분한 정보를 갖는다. 이 구조는 각각의 EVS 인스턴스에 대한 비트들을 추출하기 위해 EVS 페이로드에 추가적인 헤더 정보가 필요하지 않다는 이점을 제공한다.

일부 구현들에서, IVAS 비트레이트 분포 제어 테이블에서의 파라미터들은 다음의 값들을 갖는다:

예시적인 IVAS 비트레이트 분포 제어 테이블은 다음과 같다.

IVAS 비트스트림들의 예시적인 디코딩

실시예에서, IVAS 비트스트림을 디코딩하는 단계들은 다음과 같다:

단계 1: 비트스트림의 길이 및 stride_secs에 기초하여 IVAS 동작 비트레이트를 계산한다.

단계 2: 공간 코딩 툴을 표시하는 고정 길이 CH 섹션을 판독한다.

단계 3: IVAS 동작 비트레이트에 기초하여, IVAS 비트레이트 분포 제어 테이블에서 (단계 1에서 계산된) IVAS 동작 비트레이트의 엔트리들의 수를 체크함으로써 CTH 필드의 길이를 결정한다.

단계 4: CTH 필드의 길이가 알려지면 CTH 필드에서 인덱스 오프셋을 판독한다.

단계 5: 인덱스 오프셋 및 IVAS 동작 비트레이트를 이용하여 실제 IVAS 비트레이트 분포 제어 테이블 인덱스를 결정한다.

단계 6: 인덱싱된 테이블 엔트리로부터 EVS 비트레이트 분포 및 모노 다운믹스 역방향 호환성에 관한 모든 정보를 판독한다.

단계 7: 모노 다운믹스 역방향 호환성 모드가 온(ON)이면, 먼저 나머지 IVAS 비트들을 EVS 디코더에 전달하고, EVS 비트레이트 분포에 기초하여 각각의 EVS 인스턴스에 대한 비트 길이를 계산하고, 각각의 EVS 인스턴스에 대한 EVS 비트들을 판독하고, 대응하는 EVS 디코더로 EVS 비트들을 디코딩하고, MDP 섹션에서의 공간 메타데이터를 디코딩한다.

단계 8: 모노 다운믹스 역방향 호환성 모드가 오프(OFF)이면, MDP 섹션에서의 공간 메타데이터를 디코딩하고, EVS 비트레이트 분포에 기초하여 각각의 EVS 인스턴스에 대한 비트 길이를 계산하고, IVAS 비트스트림의 EP 섹션으로부터 각각의 EVS 인스턴스에 대한 EVS 비트들을 판독 및 디코딩한다.

단계 9: 디코딩된 EVS 출력 및 공간 메타데이터를 이용하여 스테레오 (CACPL) 또는 FoA (SPAR)와 같은 입력 오디오 포맷을 구성한다.

예시적인 IVAS SPAR 인코딩/디코딩

일부 구현들에서, IVAS SPAR 인코더는 IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 모드/툴 표시자를 결정 및 인코딩한다. 코딩 모드/툴 표시자는 코딩 모드들/툴들에 대응하는 값들을 갖는다. IVAS 비트스트림은 IVAS 비트스트림의 툴 헤더(TH) 섹션에서 모드 헤더/툴 헤더를 결정 및 인코딩하고, 여기서 TH 섹션은 CH 섹션에 후속한다. IVAS SPAR 인코더는 IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 결정 및 인코딩하고, 여기서 MDP 섹션은 CH 섹션에 후속한다. IVAS SPAR 인코더는 IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 향상된 음성 서비스(EVS) 페이로드를 결정 및 인코딩하고, 여기서 EP 섹션은 CH 섹션에 후속한다. 일부 구현들에서, IVAS 시스템은 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장한다. 다른 구현들에서, IVAS 시스템은 비트스트림을 다운스트림 디바이스에 스트리밍한다. 일부 구현들에서, IVAS SPAR 인코더는 도 8을 참조하여 설명된 디바이스 아키텍처를 포함한다.

일부 구현들에서, EP 섹션은 MDP 섹션에 후속한다. EP 섹션이 IVAS 비트스트림의 MDP 섹션에 후속하게 하는 것은 효율적인 비트패킹(bitpacking)을 보장하고, MDP 비트들 및 EP 비트들의 수가 (비트레이트 분포 알고리즘에 따라) 변하게 하는 것은 IVAS 비트레이트 예산(budget)에서의 모든 이용가능한 비트들이 이용되는 것을 보장한다는 점에 유의한다.

일부 구현들에서, IVAS SPAR 디코더는 IVAS SPAR 포맷으로 인코딩된 IVAS 비트스트림을 추출 및 디코딩한다. IVAS SPAR 디코더는 비트스트림의 CH 섹션에서 코딩 모드/툴 표시자를 추출 및 디코딩한다. 코딩 모드/툴 표시자는 코딩 모드들/툴들에 대응하는 값들을 갖는다. IVAS SPAR 디코더는 비트스트림의 툴 헤더(TH) 섹션에서 모드 헤더/툴 헤더를 추출 및 디코딩한다. TH 섹션은 CH 섹션에 후속한다. IVAS SPAR 디코더는 비트스트림의 MDP 섹션에서 메타데이터 페이로드를 추출 및 디코딩한다. MDP 섹션은 CH 섹션에 후속한다. IVAS SPAR 디코더는 비트스트림의 EP 섹션에서 EVS 페이로드를 디코딩한다. EP 섹션은 CH 섹션에 후속한다.

일부 구현들에서, IVAS 시스템은 코딩 모드, 툴 헤더, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어한다. 다른 구현들에서, IVAS 시스템은 코딩 모드, 툴 헤더, EVS 페이로드, 및 메타데이터 페이로드의 표현을 비일시적 컴퓨터 판독가능 매체 상에 저장한다. 일부 구현들에서, IVAS SPAR 디코더는 도 8을 참조하여 설명된 디바이스 아키텍처를 포함한다.

일부 구현들에서, CH는 3-비트 데이터 구조를 포함하고, 3-비트 데이터 구조의 값들 중 하나는 SPAR 코딩 모드에 대응하고, 값들의 나머지는 다른 코딩 모드들에 대응한다. 3-비트 데이터 구조는 최대 8개의 코딩 모드들을 표시할 수 있는 콤팩트 코드를 허용하기 때문에 유리하다. 다른 구현들에서, CH는 3 비트 미만을 포함한다. 다른 구현들에서, CH는 3 비트 초과를 포함한다.

일부 구현들에서, IVAS 시스템은 SPAR 비트레이트 분포 제어 테이블에서의 행을 지시하는 행 인덱스를 IVAS 비트스트림의 TH 섹션에 저장하거나 그로부터 판독한다. 예를 들어, 행 인덱스는 다음과 같이 IVAS 동작 비트레이트에 대응하는 행들의 수에 기초하여 계산될 수 있다: x = ceil(log2(IVAS 비트레이트에 대응하는 행들의 수)). 따라서, TH 섹션의 길이는 가변적이다.

일부 구현들에서, 시스템은 양자화 전략 표시자; 코딩 전략 표시자; 및 하나 이상의 계수의 양자화 및 인코딩된 실수부 및 허수부를, IVAS 비트스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, 시스템은 양자화 전략 표시자를 IVAS 비트스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, 시스템은 코딩 전략 표시자를 IVAS 비트스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

다른 구현들에서, 시스템은 하나 이상의 계수의 양자화 및 인코딩된 실수부 및 허수부를 IVAS 비트스트림의 MDP 섹션에 저장하거나 그로부터 판독한다.

일부 구현들에서, 하나 이상의 계수는 예측 계수들, 교차 예측 계수들(또는 직접 계수들), 실수 (대각선) 역상관기 계수들 및 복소 (대각선 외) 역상관기 계수들을 포함하지만, 이들로 제한되지 않는다.

일부 구현들에서, 더 많거나 더 적은 계수들이 IVAS 비트스트림의 MDP 섹션에 저장되고 그로부터 판독된다.

일부 구현들에서, IVAS 시스템은 3GPP TS 26.445에 따라 모든 채널들에 대한 EVS 페이로드를 IVAS 비트스트림의 EP 섹션에 저장하거나 그로부터 판독한다.

SPAR 포맷팅을 갖는 예시적인 IVAS 비트스트림이 이하에 예시되어 있다. IVAS 비트스트림 포맷은 다음과 같이 4개의 세분을 포함한다.

공통 헤더(CH):

일부 구현들에서, IVAS 공통 헤더(CH)는 다음과 같이 포맷팅된다.

툴 헤더(TH):

일부 구현들에서, SPAR 툴 헤더(TH)는 SPAR 비트레이트 분포 제어 테이블에 대한 인덱스 오프셋이다.

SPAR 비트레이트 분포 제어 테이블의 예시적인 구현이 이하에 도시되어 있다. 각각의 IVAS 비트레이트는 대역폭(BW), 다운믹스 구성(dmx ch, dmx 스트링), 능동 W, 복소 플래그, 전이 모드 값들, EVS 비트레이트 세트, 메타데이터 양자화 레벨 세트 및 역상관기 덕킹 플래그(decorrelator ducking flag) 중 하나 이상의 값을 지원할 수 있다. 이 예시적인 구현에서, 비트레이트 당 단지 하나의 엔트리가 있기 때문에, SPAR TH 섹션에 대한 비트 수는 0이다. 이하의 테이블에서 이용되는 두문자어들은 다음과 같이 정의된다:

PR: 예측 계수들,

C: 교차 예측 계수들(또는 직접 계수들),

P_r: 실수(대각선) 역상관기 계수들,

P_c: 복소 (대각선 외) 역상관기 계수들.

예시적인 SPAR 비트레이트 분포 제어 테이블은 다음과 같다.

메타데이터 페이로드(MDP):

예시적인 메타데이터 페이로드(MDP)는 다음과 같다.

EVS 페이로드(EP):

일부 구현들에서, 각각의 다운믹스 채널에 대한 실제 EVS 비트레이트들의 메타데이터 양자화 및 계산은 EVS 비트레이트 분포 제어 전략을 이용하여 수행된다. EVS 비트레이트 분포 제어 전략의 예시적인 구현이 아래에 설명된다.

예시적인 EVS 비트레이트 분포 제어 전략

일부 구현들에서, EVS 비트레이트 분포 제어 전략은 2개의 섹션: 메타데이터 양자화 및 EVS 비트레이트 분포를 포함한다.

메타데이터 양자화. 이 섹션에는 2개의 정의된 임계값: 타겟 파라미터 비트레이트 임계값(MDtar) 및 최대 타겟 비트레이트 임계값(MDmax)이 있다.

단계 1: 모든 프레임에 대해, 파라미터들은 비-시간 차동 방식으로 양자화되고 엔트로피 코더로 코딩된다. 일부 구현들에서, 산술 코더가 이용된다. 다른 구현들에서, 허프만 인코더가 이용된다. 파라미터 비트레이트 추정치가 MDtar 미만인 경우, 오디오 에센스의 비트레이트를 증가시키기 위해 임의의 여분의 이용가능한 비트들이 오디오 인코더에 공급된다.

단계 2: 단계 1이 실패하면, 프레임에서의 파라미터 값들의 서브세트가 이전 프레임에서의 양자화된 파라미터 값들로부터 양자화 및 감산되고, 차동 양자화된 파라미터 값이 엔트로피 코더로 코딩된다. 파라미터 비트레이트 추정치가 MDtar 미만이면, 오디오 에센스의 비트레이트를 증가시키기 위해 임의의 여분의 이용가능한 비트들이 오디오 인코더에 공급된다.

단계 3: 단계 2가 실패하면, 양자화된 파라미터들의 비트레이트는 엔트로피 없이 계산된다.

단계 4: 단계 1, 단계 2, 및 단계 3의 결과들이 MDmax와 비교된다. 단계 1, 단계 2, 및 단계 3의 최소값이 MDmax 내에 있으면, 나머지 비트들이 인코딩되어 오디오 코더에 제공된다.

단계 5: 단계 4가 실패하면, 파라미터들은 더 거칠게 양자화되고, 상기의 단계들은 제1 폴백 전략(폴백1)으로서 반복된다.

단계 6: 단계 5가 실패하면, 파라미터들은 제2 폴백 전략(폴백2)으로서 MDmax 내에 맞도록 보장되는 양자화 방식으로 양자화된다. 전술한 모든 반복들 후에, 메타데이터 비트레이트가 MDmax 내에 맞도록 보장되고, 인코더는 실제 메타데이터 비트들 또는 Metadata_actual_bits(MDact)를 생성할 것이다.

EVS 비트레이트 분포(EVSbd). 이 섹션에 대해, 이하의 정의들이 적용된다.

EVStar: EVS 타겟 비트들, 각각의 EVS 인스턴스에 대한 원하는 비트들.

EVSact: EVS 실제 비트들, 모든 EVS 인스턴스들에 대해 이용가능한 실제 비트들의 합.

EVSmin: EVS 최소 비트들, 각각의 EVS 인스턴스에 대한 최소 비트들. EVS 비트레이트는 결코 이들 비트들에 의해 표시된 값들 아래로 내려가지 않아야 한다.

EVSmax: EVS 최대 비트들, 각각의 EVS 인스턴스에 대한 최대 비트들. EVS 비트레이트는 이들 비트들에 의해 표시된 값들을 결코 초과해서는 안 된다.

EVS W: W 채널을 인코딩하는 EVS 인스턴스.

EVS Y: Y 채널을 인코딩하는 EVS 인스턴스.

EVS X: X 채널을 인코딩하는 EVS 인스턴스.

EVS Z: Z 채널을 인코딩하는 EVS 인스턴스.

EVSact = IVAS_bits - header_bits - MDact

EVSact가 모든 EVS 인스턴스들에 대한 EVStar의 합보다 작다면, 다음과 같은 순서 (Z, X, Y, W)로 EVS 인스턴스들로부터 비트가 취해진다. 임의의 채널로부터 취해질 수 있는 최대 비트 = EVStar(ch) - EVSmin(ch).

EVSact가 모든 EVS 인스턴스들에 대한 EVStar의 합보다 크면, 모든 추가 비트들은 다음의 순서 (W, Y, X, Z)로 다운믹스 채널들에 할당된다. 임의의 채널에 추가될 수 있는 최대 추가 비트들 = EVSmax(ch) - EVStar(ch).

전술한 EVSbd 방식은 모든 채널들, 즉 W, Y, X 및 Z 채널에 대해 각각 EWa, EYa, EXa, EZa에 대한 실제 EVS 비트레이트들을 계산한다. 각각의 채널이 EWa, EYa, EXa 및 EZa 비트레이트들을 갖는 개별 EVS 인스턴스들에 의해 인코딩된 후에, 모든 EVS 비트들은 함께 연결되고 패킹된다. 이 구성의 이점은 임의의 채널에 대한 EVS 비트레이트를 표시하기 위해 어떠한 추가적인 헤더도 요구되지 않는다는 것이다.

일부 구현들에서, EP 섹션은 다음과 같다.

예시적인 SPAR 디코더 비트스트림 언패킹

일부 구현들에서, SPAR 디코더 비트스트림 언패킹의 단계들은 다음과 같이 기술된다:

단계 1: 수신된 비트 버퍼의 길이로부터 IVAS 비트레이트를 결정한다.

단계 2: SPAR 비트레이트 분포 제어 테이블에서의 IVAS 비트레이트에 대한 엔트리들의 수에 기초하여 SPAR TH 섹션을 파싱하여 인덱스 오프셋을 추출하며, 인덱스 오프셋은 IVAS 동작 비트레이트에 의해 결정된다.

단계 3: 인덱스 오프셋을 이용하여 SPAR 비트레이트 분포 제어 테이블에 대한 실제 테이블 행 인덱스를 결정하고, 실제 테이블 행 인덱스에 의해 지시되는 SPAR 비트레이트 분포 제어 테이블 행의 모든 열들을 판독한다.

단계 4: IVAS 비트스트림의 MDP 섹션으로부터 양자화 전략 및 코딩 전략 비트들을 판독하고, 표시된 양자화 전략 및 코딩 전략에 기초하여 MPD 섹션에서의 SPAR 공간 메타데이터를 비양자화한다.

단계 5: 총 EVS 비트레이트(IVAS 비트스트림으로부터 판독될 나머지 비트들)에 기초하여, 전술한 EVS 비트레이트 분포(EVSbd) 당 각각의 채널에 대한 실제 EVS 비트레이트를 결정한다.

단계 6: 실제 EVS 비트레이트에 기초하여 IVAS 비트스트림의 EP 섹션으로부터 코딩된 EVS 비트들을 판독하고, 개개의 EVS 인스턴스로 FoA 오디오 신호의 각각의 채널을 디코딩한다.

단계 7: 디코딩된 EVS 출력 및 공간 메타데이터를 이용하여 FoA (SPAR) 오디오 신호를 구성한다.

전술한 IVAS 비트스트림 포맷 실시예의 이점은, 모노-대-스테레오 업믹싱 및 완전 몰입형 오디오 인코딩, 디코딩 및 렌더링(예를 들어, FoA 인코딩)을 포함하지만 이에 제한되지 않는 다양한 오디오 서비스 능력들을 지원하는 데이터를 효율적이고 콤팩트하게 인코딩한다는 것이다. 이것은 또한, 모바일 및 스마트 폰들, 전자 태블릿들, 개인용 컴퓨터들, 회의 전화들, 회의실들, 가상 현실(VR) 및 증강 현실(AR) 디바이스들, 홈 시어터 디바이스들, 및 다른 적절한 디바이스를 포함하지만 이에 제한되지 않는 광범위한 디바이스들, 엔드포인트들, 및 네트워크 노드들에 의해 지원하고, 이들 각각은 사운드 캡처 및 렌더링을 위한 다양한 음향 인터페이스들을 가질 수 있다. IVAS 비트스트림 포맷은 IVAS 표준 및 기술과 함께 용이하게 진화할 수 있도록 확장가능하다.

예시적인 프로세스들 - CACPL 포맷의 IVAS 비트스트림들

도 4a는 실시예에 따른, IVAS 인코딩 프로세스(400)의 흐름도이다. 프로세스(400)는 도 8을 참조하여 설명된 바와 같은 디바이스 아키텍처를 이용하여 구현될 수 있다.

프로세스(400)는 IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자 및 샘플링 레이트 표시자를 결정하고, IVAS 인코더를 이용하여, 코딩 툴 표시자 및 샘플링 레이트 표시자를 인코딩하는 것을 포함한다(401). 일부 구현들에서, 툴 표시자는 코딩 툴들에 대응하는 값들을 갖고, 샘플링 레이트 표시자는 샘플링 레이트를 표시하는 값들을 갖는다.

프로세스(400)는 IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 향상된 음성 서비스(EVS) 페이로드를 결정하고, IVAS 인코더를 이용하여, 향상된 음성 서비스(EVS) 페이로드를 인코딩하는 것을 더 포함한다(402). 일부 구현들에서, EP 섹션은 CH 섹션에 후속한다.

프로세스(400)는 IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드에서의 메타데이터 페이로드를 결정하고, IVAS 인코더를 이용하여, 메타데이터 페이로드를 인코딩하는 것을 더 포함한다(403). 일부 구현들에서, MDP 섹션은 CH 섹션에 후속한다. 일부 구현들에서, EP 섹션은 비트스트림의 MDP 섹션에 후속한다.

프로세스(400)는 IVAS 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장하는 것 또는 IVAS 비트스트림을 다운스트림 디바이스에 스트리밍하는 것을 더 포함한다(404).

도 4b는 실시예에 따른, 대안적인 IVAS 포맷을 이용하는 IVAS 인코딩 프로세스(405)의 흐름도이다. 프로세스(405)는 도 8을 참조하여 기술된 바와 같은 디바이스 아키텍처를 포함할 수 있다.

프로세스(405)는 IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자를 결정하고, IVAS 인코더를 이용하여, 코딩 툴 표시자를 인코딩하는 것을 포함한다(406). 일부 구현들에서, 툴 표시자는 코딩 툴들에 대응하는 값들을 갖는다.

프로세스(405)는 IVAS 비트스트림의 공통 공간 코딩 툴 헤더(CTH) 섹션에서, IVAS 인코더를 이용하여, IVAS 비트레이트 분포 제어 테이블의 표현을 인코딩하는 것을 더 포함한다(407).

프로세스(405)는 IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 결정하고, IVAS 인코더를 이용하여, 메타데이터 페이로드를 인코딩하는 것을 더 포함한다(408). 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다.

프로세스(405)는 IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 향상된 음성 서비스(EVS) 페이로드를 결정하고, IVAS 인코더를 이용하여, 향상된 음성 서비스(EVS) 페이로드를 인코딩하는 것을 더 포함한다(409). 일부 구현들에서, EP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다. 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 EP 섹션에 후속한다.

프로세스(405)는 IVAS 비트스트림을 저장 디바이스에 저장하는 것 또는 IVAS 비트스트림을 다운스트림 디바이스에 스트리밍하는 것을 더 포함한다(410).

도 5a는 실시예에 따른, IVAS 디코딩 프로세스(500)의 흐름도이다. 프로세스(500)는 도 8을 참조하여 설명된 바와 같은 디바이스 아키텍처를 이용하여 구현될 수 있다.

프로세스(500)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션으로부터 코딩 툴 표시자 및 샘플링 레이트 표시자를 추출 및 디코딩하는 것을 포함한다(501). 일부 구현들에서, 툴 표시자는 코딩 툴들에 대응하는 값들을 갖고, 샘플링 레이트 표시자는 샘플링 레이트를 표시하는 값들을 갖는다.

프로세스(500)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션으로부터 향상된 음성 서비스(EVS) 페이로드를 추출 및 디코딩하는 것을 더 포함한다(502). 일부 구현들에서, EP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다.

프로세스(500)는, IVAS 디코더를 이용하여, 비트스트림의 메타데이터 페이로드(MDP) 섹션으로부터 메타데이터 페이로드를 추출 및 디코딩하는 것을 더 포함한다(503). 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다. 일부 구현들에서, EP 섹션은 IVAS 비트스트림의 MDP 섹션에 후속한다.

프로세스(500)는 코딩 툴, 샘플링 레이트, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어하는 것, 또는 코딩 툴, 샘플링 레이트, EVS 페이로드, 및 메타데이터 페이로드의 표현을 비일시적 컴퓨터 판독가능 매체 상에 저장하는 것을 더 포함한다(504).

도 5b는 실시예에 따른, 대안적인 포맷을 이용하는 IVAS 디코딩 프로세스(505)의 흐름도이다. 프로세스(505)는 도 8을 참조하여 기술된 바와 같은 디바이스 아키텍처를 이용하여 구현될 수 있다.

프로세스(505)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자를 추출 및 디코딩하는 것을 포함한다(506). 일부 구현들에서, 툴 표시자는 코딩 툴들에 대응하는 값들을 갖는다.

프로세스(505)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 공통 공간 코딩 툴 헤더(CTH) 섹션에서 IVAS 비트레이트 분포 제어 테이블의 표현을 추출 및 디코딩하는 것을 더 포함한다(507).

프로세스(505)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 디코딩하는 것을 더 포함한다(508). 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다.

프로세스(505)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 향상된 음성 서비스(EVS) 페이로드를 디코딩하는 것을 더 포함한다(509). 일부 구현들에서, EP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다. 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 EP 섹션에 후속한다.

프로세스(505)는 코딩 툴 표시자, IVAS 비트레이트 분포 제어 테이블의 표현, 메타데이터 페이로드, 및 EVS 페이로드에 기초하여 오디오 디코더를 제어하는 것, 또는 코딩 툴 표시자의 표현, IVAS 비트레이트 분포 제어 테이블의 표현, 메타데이터 페이로드, 및 EVS 페이로드를 저장 디바이스 상에 저장하는 것을 더 포함한다(510).

예시적인 프로세스들 - SPAR 포맷의 IVAS 비트스트림들

도 6은 실시예에 따른, IVAS SPAR 인코딩 프로세스(600)의 흐름도이다. 프로세스(600)는 도 8을 참조하여 기술된 디바이스 아키텍처를 이용하여 구현될 수 있다.

프로세스(600)는 IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 모드/코딩 툴 표시자를 디코딩하고, IVAS 인코더를 이용하여, 코딩 모드/코딩 툴 표시자를 인코딩하는 것을 포함한다(601).

프로세스(600)는, IVAS 인코더를 이용하여, IVAS 비트스트림의 툴 헤더(TH) 섹션에서의 모드 헤더/툴 헤더에서 SPAR 비트레이트 분포 제어 테이블의 표현을 결정 및 인코딩하는 것을 더 포함하고(602), 여기서 TH 섹션은 CH 섹션에 후속한다.

프로세스(600)는, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 결정하고, IVAS 인코더를 이용하여, 메타데이터 페이로드를 인코딩하는 것을 더 포함한다(603). 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다.

일부 구현들에서, MDP 섹션은 양자화 전략 표시자; 코딩 전략 표시자; 및 하나 이상의 계수의 양자화 및 인코딩된 실수부 및 허수부를 포함한다. 일부 구현들에서, 하나 이상의 계수는 예측 계수들, 교차 예측 계수들(또는 직접 계수들), 실수 (대각선) 역상관기 계수들 및 복소 (대각선 외) 역상관기 계수들을 포함하지만, 이에 제한되지 않는다. 일부 구현들에서, 더 많거나 더 적은 계수들이 IVAS 비트스트림의 MDP 섹션에 저장되고 그로부터 판독된다.

프로세스(600)는 IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 향상된 음성 서비스(EVS) 페이로드를 결정하고, IVAS 인코더를 이용하여, EVS 페이로드를 인코딩하는 것을 더 포함한다(604). 일부 구현들에서, IVAS 비트스트림의 EP 섹션은 3GPP TS 26.445에 따라 모든 채널들에 대한 EVS 페이로드를 포함한다. 일부 구현들에서, EP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다. 일부 구현들에서, EP 섹션은 MDP 섹션에 후속한다. EP 섹션이 IVAS 비트스트림의 MDP 섹션에 후속하게 하는 것은 효율적인 비트패킹을 보장하고, MDP 비트들 및 EP 비트들의 수가 (비트레이트 분포 알고리즘에 따라) 변하게 하는 것은 IVAS 비트레이트 예산에서의 모든 이용가능한 비트들이 이용되는 것을 보장한다는 점에 유의한다.

프로세스(600)는 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장하는 것, 또는 비트스트림을 다운스트림 디바이스에 스트리밍하는 것을 더 포함한다(605).

도 7은 실시예에 따른, IVAS SPAR 디코딩 프로세스(700)의 흐름도이다. 프로세스(700)는 도 8을 참조하여 기술된 바와 같은 디바이스 아키텍처를 이용하여 구현될 수 있다.

프로세스(700)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 모드 표시자를 추출 및 디코딩하는 것을 포함한다(701).

프로세스(700)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 툴 헤더(TH) 섹션에서의 모드 헤더/툴 헤더에서 SPAR 비트레이트 분포 제어 테이블의 표현을 추출 및 디코딩하는 것을 포함한다(702). 일부 구현들에서, TH 섹션은 CH 섹션에 후속한다.

프로세스(700)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션으로부터 메타데이터 페이로드를 추출 및 디코딩하는 것을 더 포함한다(703). 일부 구현들에서, MDP 섹션은 IVAS 비트스트림의 CH 섹션에 후속한다.

프로세스(700)는, IVAS 디코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션으로부터 향상된 음성 서비스(EVS) 페이로드를 추출 및 디코딩하는 것을 더 포함한다(704). 일부 구현들에서, EP 섹션은 CH 섹션에 후속한다. 일부 구현들에서, EP 섹션은 MDP 섹션에 후속한다. EP 섹션이 IVAS 비트스트림의 MDP 섹션에 후속하게 하는 것은 효율적인 비트패킹을 보장하고, MDP 비트들 및 EP 비트들의 수가 (비트레이트 분포 알고리즘에 따라) 변하게 하는 것은 IVAS 비트레이트 예산에서의 모든 이용가능한 비트들이 이용되는 것을 보장한다는 점에 유의한다.

프로세스(700)는 코딩 모드 표시자, SPAR 비트레이트 분포 제어 테이블의 표현, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어하는 것, 또는 코딩 모드 표시자의 표현, SPAR 비트레이트 분포 제어 테이블의 표현, EVS 페이로드, 및 메타데이터 페이로드를 비일시적 컴퓨터 판독가능 매체 상에 저장하는 것을 더 포함한다(705).

예시 시스템 아키텍처

도 8은 본 개시내용의 예시적인 실시예들을 구현하기에 적합한 예시적인 시스템(800)의 블록도를 도시한다. 시스템(800)은 호출 서버(102), 레거시 디바이스들(106), 사용자 장비(108, 114), 회의실 시스템들(116, 118), 홈 시어터 시스템들, VR 기어(122) 및 몰입형 콘텐츠 인제스트(124)와 같은 도 1에 도시된 디바이스들 중 임의의 것을 포함하지만 이에 제한되지 않는 하나 이상의 서버 컴퓨터 또는 임의의 클라이언트 디바이스를 포함한다. 시스템(800)은 스마트 폰들, 태블릿 컴퓨터들, 웨어러블 컴퓨터들, 차량 컴퓨터들, 게임 콘솔들, 서라운드 시스템들, 키오스크들을 포함하지만 이에 제한되지 않는 임의의 소비자 디바이스들을 포함한다.

도시된 바와 같이, 시스템(800)은 예를 들어, 판독 전용 메모리(ROM)(802)에 저장된 프로그램, 또는 예를 들어, 저장 유닛(808)으로부터 랜덤 액세스 메모리(RAM)(803)에 로딩된 프로그램에 따라 다양한 프로세스들을 수행할 수 있는 중앙 처리 유닛(CPU)(801)을 포함한다. RAM(803)에서, CPU(801)가 다양한 프로세스들을 수행할 때 요구되는 데이터가 또한 필요에 따라 저장된다. CPU(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 접속된다. 입/출력(I/O) 인터페이스(805)가 또한 버스(804)에 접속된다.

다음의 컴포넌트들이 I/O 인터페이스(805)에 접속된다: 키보드, 마우스 등을 포함할 수 있는 입력 유닛(806); 액정 디스플레이(LCD)와 같은 디스플레이 및 하나 이상의 스피커를 포함할 수 있는 출력 유닛(807); 하드 디스크 또는 다른 적절한 저장 디바이스를 포함하는 저장 유닛(808); 및 네트워크 카드(예를 들어, 유선 또는 무선)와 같은 네트워크 인터페이스 카드를 포함하는 통신 유닛(809).

일부 구현들에서, 입력 유닛(806)은 다양한 포맷들(예를 들어, 모노, 스테레오, 공간, 몰입형, 및 다른 적절한 포맷들)로 오디오 신호들의 캡처를 가능하게 하는 (호스트 디바이스에 따라) 상이한 위치들에 있는 하나 이상의 마이크로폰을 포함한다.

일부 구현들에서, 출력 유닛(807)은 다양한 수의 스피커들을 갖는 시스템들을 포함한다. 도 1에 도시된 바와 같이, 출력 유닛(807)은 (호스트 디바이스의 능력들에 따라) 다양한 포맷들(예를 들어, 모노, 스테레오, 몰입형, 바이노럴, 및 다른 적절한 포맷들)로 오디오 신호들을 렌더링할 수 있다.

통신 유닛(809)은 (예를 들어, 네트워크를 통해) 다른 디바이스들과 통신하도록 구성된다. 드라이브(810)는 또한 필요에 따라 I/O 인터페이스(805)에 접속된다. 자기 디스크, 광학 디스크, 광자기 디스크, 플래시 드라이브 또는 다른 적절한 착탈식 매체와 같은 착탈식 매체(811)가 드라이브(810) 상에 장착되어, 그로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 유닛(808)에 설치된다. 본 기술분야의 통상의 기술자는 시스템(800)이 전술한 컴포넌트들을 포함하는 것으로 설명되지만, 실제 응용들에서, 이러한 컴포넌트들 중 일부를 추가, 제거, 및/또는 대체하는 것이 가능하고, 이러한 모든 수정들 또는 변경들 모두가 본 개시내용의 범위 내에 속한다는 것을 이해할 것이다.

다른 구현들

실시예에서, 오디오 신호에 대한 비트스트림을 생성하는 방법은, IVAS 인코더를 이용하여, 코딩 툴 표시자 및 샘플링 레이트 표시자를 결정하는 단계―코딩 툴 표시자는 코딩 툴들에 대응하는 값들을 갖고, 샘플링 레이트 표시자는 샘플링 레이트를 표시하는 값들을 가짐―; IVAS 인코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자 및 샘플링 레이트 표시자를 인코딩하는 단계; IVAS 인코더를 이용하여, 향상된 음성 서비스(EVS) 페이로드를 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 EVS 페이로드를 인코딩하는 단계―EP 섹션은 CH 섹션에 후속함―; IVAS 인코더를 이용하여, 메타데이터 페이로드를 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 인코딩하는 단계―MDP 섹션은 CH 섹션에 후속함―; 및 IVAS 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장하거나 IVAS 비트스트림을 다운스트림 디바이스에 스트리밍하는 단계를 포함한다.

실시예에서, 오디오 신호의 비트스트림을 디코딩하는 방법은, IVAS 디코더를 이용하여, IVAS 비트스트림의 CH 섹션으로부터 코딩 툴 표시자 및 샘플링 레이트 표시자를 추출 및 디코딩하는 단계―툴 표시자는 코딩 툴들에 대응하는 값들을 갖고, 샘플링 레이트 표시자는 샘플링 레이트를 표시하는 값들을 가짐―; IVAS 디코더를 이용하여, 비트스트림의 EP 섹션으로부터 EVS 페이로드를 추출 및 디코딩하는 단계―EP 섹션은 CH 섹션에 후속함―; IVAS 디코더를 이용하여, 비트스트림의 MDP 섹션으로부터 메타데이터 페이로드를 디코딩하는 단계―MDP 섹션은 CH 섹션에 후속함―; 및 코딩 툴, 샘플링 레이트, EVS 페이로드, 및 메타데이터 페이로드에 기초하여 오디오 디코더를 제어하거나, 코딩 툴, 샘플링 레이트, EVS 페이로드, 및 메타데이터 페이로드의 표현을 비일시적 컴퓨터 판독가능 매체 상에 저장하는 단계를 포함한다.

실시예에서, MDP 섹션은 비트스트림의 EP 섹션에 후속하거나, EP 섹션은 비트스트림의 MDP 섹션에 후속한다.

실시예에서, IVAS 코딩 툴 표시자는 3-비트 데이터 구조이고, 3-비트 데이터 구조의 제1 값은 멀티 모노 코딩 툴에 대응하고, 3-비트 데이터 구조의 제2 값은 CACPL 코딩 툴에 대응하고, 3-비트 데이터 구조의 제3 값은 다른 코딩 툴에 대응한다.

실시예에서, 입력 샘플링 레이트 표시자는 2-비트 데이터 구조이고, 2-비트 데이터 구조의 제1 값은 8kHz 샘플링 레이트를 표시하고, 2-비트 데이터 구조의 제2 값은 16kHz 샘플링 레이트를 표시하고, 2-비트 데이터 구조의 제3 값은 32kHz 샘플링 레이트를 표시하고, 2-비트 데이터 구조의 제4 값은 48kHz 샘플링 레이트를 표시한다.

실시예에서, 선행하는 방법들은 EVS 채널들의 수 표시자; 비트레이트(BR) 추출 모드 표시자; EVS BR 데이터; 및 EVS 페이로드를, 비트스트림의 EP 섹션에 각각 저장하거나 그로부터 판독하는 단계를 포함한다.

실시예에서, 선행하는 방법들은 코딩 기술 표시자; 대역들의 수 표시자; 필터뱅크의 지연 구성을 표시하는 표시자; 양자화 전략의 표시자; 엔트로피 코더 표시자; 확률 모델 타입 표시자; 계수 실수부; 계수 허수부; 및 하나 이상의 계수를, 데이터 스트림의 MDP 섹션에 저장하거나 그로부터 각각 판독하는 단계를 포함한다.

실시예에서, 오디오 신호에 대한 비트스트림을 생성하는 방법은, IVAS 인코더를 이용하여, 코딩 툴 표시자를 결정하는 단계―툴 표시자는 코딩 툴에 대응하는 값들을 가짐―; IVAS 인코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 툴 표시자를 인코딩하는 단계; IVAS 인코더를 이용하여, IVAS 비트레이트 분포 제어 테이블 인덱스의 표현을 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 공통 공간 코딩 툴 헤더(CTH) 섹션에서 IVAS 비트레이트 분포 제어 테이블 인덱스의 표현을 인코딩하는 단계―CTH 섹션은 CH 섹션에 후속함―; IVAS 인코더를 이용하여, 메타데이터 페이로드를 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 메타데이터 페이로드를 인코딩하는 단계―MDP 섹션은 CTH 섹션에 후속함―; IVAS 인코더를 이용하여, 향상된 음성 서비스(EVS) 페이로드를 결정하는 단계; IVAS 인코더를 이용하여, IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 EVS 페이로드를 인코딩하는 단계―EP 섹션은 CTH 섹션에 후속함―; 및 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장하거나 비트스트림을 다운스트림 디바이스에 스트리밍하는 단계를 포함한다.

실시예에서, 오디오 신호의 비트스트림을 디코딩하는 방법은, IVAS 디코더에 의해, 비트스트림을 수신하는 단계; 비트스트림의 길이 및 스트라이드에 기초하여 IVAS 동작 비트레이트를 컴퓨팅하는 단계; 비트스트림의 공통 헤더(CH) 섹션으로부터 공간 코딩 툴의 표시자를 판독하는 단계; IVAS 동작 비트레이트에 기초하여 비트스트림의 공통 공간 코딩 툴 헤더(CTH) 섹션의 길이를 결정하는 단계―결정하는 단계는 CTH 섹션에서의 IVAS 비트레이트 분포 제어 테이블에서의 IVAS 동작 비트레이트에 대응하는 엔트리들의 수를 체크하는 것을 포함함―; IVAS 비트레이트 분포 제어 테이블 인덱스를 결정하기 위해 CTH 섹션의 길이를 결정할 시에 CTH 섹션에서의 값들을 판독하는 단계; IVAS 비트레이트 분포 제어 테이블 인덱스에 대응하는 IVAS 비트레이트 분포 제어 테이블의 엔트리로부터 향상된 음성 서비스(EVS) 비트레이트 분포에 관한 정보를 판독하는 단계; 및 EVS 비트레이트 분포에 관한 정보를 EVS 디코더에 제공하는 단계를 포함한다.

실시예에서, 선행하는 방법들 중 임의의 방법은 IVAS 비트레이트 분포 제어 테이블의 엔트리로부터 3GPP TS 26.445와의 모노 다운믹스 역방향 호환성에 대한 표시자를 판독하는 단계를 포함한다.

실시예에서, 선행하는 방법은, 모노 다운믹스 역방향 호환성 표시자가 ON 모드에 있는 것을 결정하는 단계; 및 ON 모드에 응답하여: 비트스트림의 나머지 부분들을 EVS 디코더에 제공하는 단계; 이후 EVS 비트레이트 분포에 기초하여 비트스트림의 나머지 부분으로부터 각각의 EVS 인스턴스에 대한 개개의 비트 길이를 계산하는 단계; 대응하는 비트 길이에 기초하여 각각의 EVS 인스턴스에 대한 EVS 비트들을 판독하는 단계; 및 EVS 비트들을 제1 부분으로서 EVS 디코더에 제공하는 단계; 공간 메타데이터를 디코딩하기 위해 비트스트림의 나머지 부분들을 MDP 디코더에 제공하는 단계를 포함한다.

실시예에서, 선행하는 방법은, 모노 다운믹스 역방향 호환성 표시자가 OFF 모드에 있는 것을 결정하는 단계; 및 OFF 모드에 응답하여: 비트스트림의 나머지 부분들을 MDP 디코더에 제공하여 공간 메타데이터를 디코딩하는 단계; 이후 EVS 비트레이트 분포에 기초하여 비트스트림의 나머지 부분으로부터 각각의 EVS 인스턴스에 대한 개개의 비트 길이를 계산하는 단계; 대응하는 비트 길이에 기초하여 각각의 EVS 인스턴스에 대한 EVS 비트들을 판독하는 단계; 및 EVS 비트들을 제1 부분으로서 EVS 디코더에 제공하는 단계를 포함한다.

실시예에서, 시스템은 하나 이상의 컴퓨터 프로세서; 및 하나 이상의 프로세서에 의한 실행 시에, 하나 이상의 프로세서로 하여금 선행하는 방법 청구항들 중 어느 하나의 동작들을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체를 포함한다.

실시예에서, 하나 이상의 컴퓨터 프로세서에 의한 실행 시에, 하나 이상의 프로세서로 하여금 선행하는 방법 청구항들 중 어느 하나의 동작들을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체.

본 개시내용의 예시적인 실시예들에 따르면, 전술한 프로세스들은 컴퓨터 소프트웨어 프로그램으로서 또는 컴퓨터 판독가능 저장 매체 상에서 구현될 수 있다. 예를 들어, 본 개시내용의 실시예들은 머신 판독가능 매체 상에 유형으로(tangibly) 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 방법들을 수행하기 위한 프로그램 코드를 포함한다. 그러한 실시예들에서, 컴퓨터 프로그램은, 도 8에 도시된 바와 같이, 통신 유닛(809)을 통해 네트워크로부터 다운로딩 및 탑재될 수 있고/있거나 착탈식 매체(811)로부터 설치될 수 있다.

일반적으로, 본 개시내용의 다양한 예시적인 실시예들은 하드웨어 또는 특수 목적 회로들(예를 들어, 제어 회로), 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 위에서 논의된 유닛들은 제어 회로(예를 들어, 도 8의 다른 컴포넌트들과 조합된 CPU)에 의해 실행될 수 있고, 따라서, 제어 회로는 본 개시내용에 설명된 액션들을 수행할 수 있다. 일부 양태들은 하드웨어로 구현될 수 있는 반면, 다른 양태들은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스(예를 들어, 제어 회로)에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 본 개시내용의 예시적인 실시예들의 다양한 양태들이 블록도들, 흐름도들로서, 또는 일부 다른 그림 표현을 이용하여 도시되고 설명되지만, 본 명세서에 설명된 블록들, 장치들, 시스템들, 기술들 또는 방법들은 비-제한적인 예들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로들 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스들, 또는 이들의 일부 조합으로 구현될 수 있다는 점이 이해될 것이다.

추가적으로, 흐름도들에 도시된 다양한 블록들은 방법 단계들로서, 및/또는 컴퓨터 프로그램 코드의 동작으로부터 초래되는 동작들로서, 및/또는 연관된 기능(들)을 수행하도록 구성된 복수의 결합된 로직 회로 요소들로서 보여질 수 있다. 예를 들어, 본 개시내용의 실시예들은 머신 판독가능 매체 상에 유형으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 전술한 바와 같은 방법들을 수행하도록 구성된 프로그램 코드들을 포함한다.

본 개시내용의 맥락에서, 머신 판독가능 매체는 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 그와 관련하여 이용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 유형의 매체일 수 있다. 머신 판독가능 매체는 머신 판독가능 신호 매체 또는 머신 판독가능 저장 매체일 수 있다. 머신 판독가능 매체는 비-일시적일 수 있고, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 전술한 것의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다. 머신 판독가능 저장 매체의 보다 구체적인 예들은 하나 이상의 와이어를 갖는 전기 접속, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거가능 프로그램가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 전술한 것의 임의의 적절한 조합을 포함할 것이다.

본 개시내용의 방법들을 수행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 컴퓨터 프로그램 코드들은 범용 컴퓨터, 특수 목적 컴퓨터, 또는 제어 회로를 갖는 다른 프로그래밍가능 데이터 처리 장치의 프로세서에 제공될 수 있어, 프로그램 코드들은, 컴퓨터 또는 다른 프로그래밍가능 데이터 처리 장치의 프로세서에 의해 실행될 때, 흐름도들 및/또는 블록도들에 명시되는 기능들/동작들이 구현되게 한다. 프로그램 코드는 컴퓨터 상에서 전체적으로, 컴퓨터 상에서 부분적으로, 독립형 소프트웨어 패키지로서, 컴퓨터 상에서 부분적으로 및 원격 컴퓨터 상에서 부분적으로 또는 원격 컴퓨터 또는 서버 상에서 전체적으로 또는 하나 이상의 원격 컴퓨터 및/또는 서버에 걸쳐 분산되어 실행될 수 있다.

본 문서는 많은 특정 구현 상세들을 포함하지만, 이들은 청구될 수 있는 것의 범위에 대한 제한들로서 해석되어서는 안 되고, 오히려 특정 실시예들에 특정될 수 있는 특징들의 설명들로서 해석되어야 한다. 개별 실시예들의 맥락에서 본 명세서에서 설명되는 특정한 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 역으로, 단일 실시예의 맥락에서 설명되는 다양한 특징들은 또한 다수의 실시예들에서 개별적으로 또는 임의의 적절한 하위 조합으로 구현될 수 있다. 더욱이, 특징들이 특정 조합들로 작용하는 것으로서 위에 설명되고 심지어 그와 같이 초기에 청구될 수 있더라도, 청구되는 조합으로부터의 하나 이상의 특징은, 일부 경우들에서, 조합으로부터 삭제될 수 있고, 청구되는 조합은 하위 조합 또는 하위 조합의 변형에 관한 것일 수 있다. 도면들에 도시되는 논리 흐름들은 바람직한 결과들을 달성하기 위해, 도시되는 특정 순서, 또는 순차적 순서를 요구하지 않는다. 또한, 다른 단계들이 제공될 수 있거나, 또는 단계들이 설명되는 흐름들로부터 제거될 수 있고, 다른 컴포넌트들이 설명되는 시스템들에 추가되거나, 또는 그로부터 제거될 수 있다. 따라서, 다른 구현들은 이하의 청구항들의 범위 내에 있다.

Claims

오디오 신호에 대한 비트스트림을 생성하는 방법으로서,
몰입형 음성 및 오디오 서비스(IVAS) 인코더를 이용하여, 코딩 모드 표시자 또는 코딩 툴 표시자를 결정하는 단계―상기 코딩 모드 표시자 또는 코딩 툴 표시자는 상기 오디오 신호에 대한 코딩 모드 또는 코딩 툴을 표시함―;
상기 IVAS 인코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 상기 코딩 모드 표시자 또는 코딩 툴 표시자를 인코딩하는 단계;
상기 IVAS 인코더를 이용하여, 모드 헤더 또는 툴 헤더를 결정하는 단계;
상기 IVAS 인코더를 이용하여, 상기 IVAS 비트스트림의 툴 헤더(TH) 섹션에서 상기 모드 또는 툴 헤더를 인코딩하는 단계―상기 TH 섹션은 상기 CH 섹션에 후속함―;
상기 IVAS 인코더를 이용하여, 공간 메타데이터를 포함하는 메타데이터 페이로드를 결정하는 단계;
상기 IVAS 인코더를 이용하여, 상기 IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션에서 상기 메타데이터 페이로드를 인코딩하는 단계―상기 MDP 섹션은 상기 CH 섹션에 후속함―;
상기 IVAS 인코더를 이용하여, 향상된 음성 서비스(EVS) 페이로드를 결정하는 단계―상기 EVS 페이로드는 상기 오디오 신호의 각각의 채널 또는 다운믹스 채널에 대한 EVS 코딩된 비트들을 포함함―; 및
상기 IVAS 인코더를 이용하여, 상기 IVAS 비트스트림의 EVS 페이로드(EP) 섹션에서 상기 EVS 페이로드를 인코딩하는 단계―상기 EP 섹션은 상기 CH 섹션에 후속함―를 포함하는
방법.
제1항에 있어서,
상기 IVAS 비트스트림을 비일시적 컴퓨터 판독가능 매체 상에 저장하거나, 상기 IVAS 비트스트림을 다운스트림 디바이스에 스트리밍하는 단계를 더 포함하고, 상기 코딩 모드 또는 코딩 툴 표시자, 상기 모드 헤더 또는 툴 헤더, 상기 메타데이터 페이로드 및 상기 EVS 페이로드는 상기 다운스트림 디바이스 또는 다른 디바이스 상의 상기 오디오 신호의 재구성에 이용하기 위해 상기 IVAS 비트스트림의 상기 CH, TH, MDP 및 EP 섹션들로부터 각각 추출 및 디코딩되는, 방법.
오디오 신호의 비트스트림을 디코딩하는 방법으로서,
몰입형 음성 및 오디오 서비스(IVAS) 디코더를 이용하여, IVAS 비트스트림의 공통 헤더(CH) 섹션에서 코딩 모드 표시자 또는 코딩 툴 표시자를 추출 및 디코딩하는 단계―상기 코딩 모드 표시자 또는 코딩 툴 표시자는 상기 오디오 신호에 대한 코딩 모드 또는 코딩 툴을 표시함―;
상기 IVAS 디코더를 이용하여, 상기 IVAS 비트스트림의 툴 헤더(TH) 섹션에서 모드 헤더 또는 툴 헤더를 추출 및 디코딩하는 단계―상기 TH 섹션은 상기 CH 섹션에 후속함―;
상기 IVAS 디코더를 이용하여, 상기 IVAS 비트스트림의 메타데이터 페이로드(MDP) 섹션으로부터 메타데이터 페이로드를 추출 및 디코딩하는 단계―상기 MDP 섹션은 상기 CH 섹션에 후속하고, 상기 메타데이터 페이로드는 공간 메타데이터를 포함함―; 및
상기 IVAS 디코더를 이용하여, 상기 IVAS 비트스트림의 EVS 페이로드(EP) 섹션으로부터 향상된 음성 서비스(EVS) 페이로드를 추출 및 디코딩하는 단계―상기 EP 섹션은 상기 CH 섹션에 후속하고, 상기 EVS 페이로드는 상기 오디오 신호의 각각의 채널 또는 다운믹스 채널에 대한 EVS 코딩된 비트들을 포함함―를 포함하는
방법.
제3항에 있어서,
다운스트림 디바이스 또는 다른 디바이스 상의 상기 오디오 신호의 재구성에 이용하기 위해 상기 코딩 모드 표시자 또는 코딩 툴 표시자, 상기 모드 헤더 또는 툴 헤더, 상기 EVS 페이로드, 및 상기 메타데이터 페이로드에 기초하여 상기 다운스트림 디바이스의 오디오 디코더를 제어하거나, 또는 상기 코딩 모드 표시자 또는 코딩 툴 표시자, 상기 모드 헤더 또는 툴 헤더, 상기 EVS 페이로드, 및 상기 메타데이터 페이로드의 표현을 비일시적 컴퓨터 판독가능 매체 상에 저장하는 단계를 더 포함하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 CH는 멀티-비트 데이터 구조이고, 상기 멀티-비트 데이터 구조의 하나의 값은 공간 재구성(SPAR) 코딩 모드에 대응하고, 상기 데이터 구조의 다른 값들은 다른 코딩 모드들에 대응하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
공간 재구성(SPAR) 비트레이트 분포 제어 테이블의 행 인덱스를 컴퓨팅하기 위한 인덱스 오프셋을, 상기 IVAS 비트스트림의 상기 TH 섹션에 각각 저장하거나 그로부터 판독하는 단계를 포함하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
양자화 전략 표시자;
비트스트림 코딩 전략 표시자; 및
계수들의 세트의 양자화 및 코딩된 실수부 및 허수부를,
상기 IVAS 비트스트림의 상기 MDP 섹션에 각각 저장하거나 그로부터 판독하는 단계를 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 EP 섹션은 효율적인 비트패킹을 보장하기 위해 상기 MDP 섹션에 후속하고, 상기 IVAS 비트스트림의 상기 MDP 섹션에서의 비트들의 수 및 상기 IVAS 비트스트림의 상기 EP 섹션에서의 비트들의 수는 상기 SPAR 비트레이트 분포 제어 테이블 및 비트레이트 분포 알고리즘에 따라 변하여, IVAS 비트레이트 예산에서의 모든 이용가능한 비트들이 이용되는 것을 보장하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
각각의 EVS 코딩된 채널 또는 다운믹스 채널에 대한 비트레이트는 EVS에 대한 총 이용가능한 비트들, 비트레이트 분포 제어 테이블 및 비트레이트 분포 알고리즘에 의해 결정되는, 방법.
제7항에 있어서,
상기 계수들의 세트는 예측 계수들, 직접 계수들, 대각 실수 계수들 및 하위 삼각 복소 계수들을 포함하는, 방법.
제10항에 있어서,
상기 예측 계수들은 엔트로피 코딩에 기초한 가변 비트 길이이고, 상기 직접 계수들, 대각 실수 계수들 및 하위 삼각 복소 계수들은 다운믹스 구성 및 엔트로피 코딩에 기초한 가변 비트 길이인, 방법.
제7항에 있어서,
상기 양자화 전략 표시자는 양자화 전략을 표시하는 멀티-비트 데이터 구조인, 방법.
제7항에 있어서,
상기 비트스트림 코딩 전략 표시자는 공간 메타데이터의 대역들의 수 및 비-차동 또는 시간-차동 엔트로피 코딩 방식을 표시하는 멀티-비트 데이터 구조인, 방법.
제7항에 있어서,
상기 계수들의 상기 양자화는 메타데이터 양자화 및 EVS 비트레이트 분포를 포함하는 EVS 비트레이트 분포 제어 전략에 따르는, 방법.
제1항 내지 제14항 중 어느 한 항에 있어서,
3세대 파트너십 프로젝트(3GPP) 기술 사양(TS) 26.445에 따른 EVS 인스턴스들에 대한 EVS 페이로드를, 상기 비트스트림의 상기 EP 섹션에 각각 저장하거나 그로부터 판독하는 단계를 포함하는, 방법.
제3항 내지 제15항 중 어느 한 항에 있어서,
상기 IVAS 비트스트림으로부터 비트레이트를 결정하는 단계;
상기 IVAS 비트스트림의 공간 재구성(SPAR) 툴 헤더(TH) 섹션으로부터 인덱스 오프셋을 판독하는 단계;
상기 인덱스 오프셋을 이용하여 상기 SPAR 비트레이트 분포 제어 테이블에 대한 테이블 행 인덱스를 결정하는 단계;
상기 IVAS 비트스트림에서의 메타데이터 페이로드(MDP) 섹션으로부터 양자화 전략 비트들 및 코딩 전략 비트들을 판독하는 단계;
상기 양자화 전략 비트들 및 상기 코딩 전략 비트들에 기초하여 상기 IVAS 비트스트림의 상기 MDP 섹션에서 SPAR 공간 메타데이터를 비양자화하는 단계;
총 이용가능한 EVS 비트들, SPAR 비트레이트 분포 제어 테이블 및 비트레이트 분포 알고리즘을 이용하여 상기 IVAS 비트스트림에서의 각각의 채널에 대한 향상된 음성 서비스(EVS) 비트레이트를 결정하는 단계;
상기 EVS 비트레이트에 기초하여 상기 IVAS 비트스트림의 상기 EP 섹션으로부터 EVS 코딩된 비트들을 판독하는 단계;
상기 EVS 비트들을 디코딩하는 단계;
상기 공간 메타데이터를 디코딩하는 단계; 및
상기 디코딩된 EVS 비트들 및 상기 디코딩된 공간 메타데이터를 이용하여 1차 앰비소닉스(FoA) 출력을 생성하는 단계를 더 포함하는, 방법.
시스템으로서,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의한 실행 시에, 상기 하나 이상의 프로세서로 하여금 방법 청구항 제1항 내지 제16항 중 어느 한 항의 동작들을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체를 포함하는
시스템.
비일시적 컴퓨터 판독가능 매체로서,
하나 이상의 프로세서에 의한 실행 시에, 상기 하나 이상의 프로세서로 하여금 방법 청구항 제1항 내지 제16항 중 어느 한 항의 동작들을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체.