TW202121399A - Ivas位元流之編碼及解碼 - Google Patents
Ivas位元流之編碼及解碼 Download PDFInfo
- Publication number
- TW202121399A TW202121399A TW109126091A TW109126091A TW202121399A TW 202121399 A TW202121399 A TW 202121399A TW 109126091 A TW109126091 A TW 109126091A TW 109126091 A TW109126091 A TW 109126091A TW 202121399 A TW202121399 A TW 202121399A
- Authority
- TW
- Taiwan
- Prior art keywords
- ivas
- section
- evs
- bit
- payload
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 108
- 238000013139 quantization Methods 0.000 claims description 51
- 230000005236 sound signal Effects 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000011217 control strategy Methods 0.000 claims description 7
- 238000012856 packing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 28
- 239000000284 extract Substances 0.000 description 19
- 238000004590 computer program Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000012732 spatial analysis Methods 0.000 description 6
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000545 stagnation point adsorption reflectometry Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Stereophonic System (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
編碼/解碼一沉浸式語音及音訊服務(IVAS)位元流包括:在一IVAS位元流之一共同標頭(CH)區段中編碼/解碼一編碼模式指示符;在該位元流之該工具標頭(TH)區段中編碼/解碼一模式標頭或工具標頭,該TH區段緊跟該CH區段;在該位元流之一後設資料有效負載(MDP)區段中編碼/解碼一後設資料有效負載,該MDP區段緊跟該CH區段;在該位元流之一EVS有效負載(EP)區段中編碼/解碼一增強語音服務(EVS)有效負載,該EP區段緊跟該CH區段;及在該編碼器側上,儲存或串流傳輸該經編碼位元流,且在該解碼器側上,基於該編碼模式、該工具標頭、該EVS有效負載及該後設資料有效負載控制一音訊解碼器或儲存該編碼模式、該工具標頭、該EVS有效負載及該後設資料有效負載之一表示。
Description
本發明大體上係關於音訊位元流編碼及解碼。
語音及視訊編碼器/解碼器(「編解碼器」)標準開發最近專注於開發用於沉浸式語音及音訊服務(IVAS)之一編解碼器。預期IVAS支援一系列音訊服務能力,包含(但不限於)單聲道至立體聲上混及完全沉浸式音訊編碼、解碼及呈現。IVAS旨在由廣泛範圍之器件、端點及網路節點支援,包含(但不限於):行動電話及智慧型電腦、電子平板電腦、個人電腦、會議電話、會議室、虛擬實境(VR)及擴增實境(AR)器件、家庭劇院器件及其他適合器件。此等器件、端點及網路節點可具有用於聲音擷取及呈現之各種聲學介面。
揭示用於編碼及解碼IVAS位元流之實施方案。
在一些實施方案中,一種產生一音訊信號之一位元流之方法包括:使用一沉浸式語音及音訊服務(IVAS)編碼器判定一編碼模式指示符或編碼工具指示符,該編碼模式指示符或編碼工具指示符指示該音訊信號之一編碼模式或編碼工具;使用該IVAS編碼器在一IVAS位元流之一共同標頭(CH)區段中編碼該編碼模式指示符或編碼工具指示符;使用該IVAS編碼器判定一模式標頭或工具標頭;使用該IVAS編碼器在該IVAS位元流之一工具標頭(TH)區段中編碼該模式或工具標頭,其中該TH區段緊跟該CH區段;使用該IVAS編碼器判定包含空間後設資料之一後設資料有效負載;使用該IVAS編碼器在該IVAS位元流之一後設資料有效負載(MDP)區段中編碼該後設資料有效負載,其中該MDP區段緊跟該CH區段;及使用該IVAS編碼器判定一增強語音服務(EVS)有效負載,該EVS有效負載包含該音訊信號之各聲道或降混聲道之EVS編碼位元;及使用該IVAS編碼器在該IVAS位元流之一EVS有效負載(EP)區段中編碼該EVS有效負載,其中該EP區段緊跟該CH區段。
在一些實施方案中,將該IVAS位元流儲存於一非暫時性電腦可讀媒體上。在其他實施方案中,將該IVAS位元流串流傳輸至一下游器件,其中該編碼模式或編碼工具指示符、該模式標頭或工具標頭、該後設資料有效負載及該EVS有效負載係分別自該IVAS位元流之該等CH、TH、MDP及EP區段提取並解碼用於該音訊信號在該下游器件或另一器件上之重建。
在一些實施方案中,一種解碼一音訊信號之一位元流之方法包括:使用一沉浸式語音及音訊服務(IVAS)解碼器在一IVAS位元流之一共同標頭(CH)區段中提取並解碼一編碼模式指示符或編碼工具指示符,該編碼模式指示符或編碼工具指示符指示該音訊信號之一編碼模式或編碼工具;使用該IVAS解碼器在該IVAS位元流之該工具標頭(TH)區段中提取並解碼一模式標頭或工具標頭,該TH區段緊跟該CH區段;使用該IVAS解碼器自該IVAS位元流之後設資料有效負載(MDP)區段提取並解碼一後設資料有效負載,該MDP區段緊跟該CH區段,該後設資料有效負載包含空間後設資料;及使用該IVAS解碼器自該IVAS位元流之一EVS有效負載(EP)區段提取並解碼一增強語音服務(EVS)有效負載,該EP區段緊跟該CH區段,該EVS有效負載包含該音訊信號之各聲道或降混聲道之EVS編碼位元。
在一些實施方案中,基於該編碼模式指示符或編碼工具指示符、該模式標頭或工具標頭、該EVS有效負載及該後設資料有效負載控制一下游器件之一音訊解碼器用於該音訊信號在該下游器件或另一器件上之重建。在其他實施方案中,將該編碼模式指示符或編碼工具指示符、該模式標頭或工具標頭、該EVS有效負載及該後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上。
在一些實施方案中,各EVS編碼聲道或降混聲道之一位元率由EVS之總可用位元、一SPAR位元率分佈控制表及一位元率分佈演算法判定。
在一些實施方案中,該CH係一多位元資料結構,其中該多位元資料結構之一個值對應於一空間重建(SPAR)編碼模式且該資料結構之其他值對應於其他編碼模式。
在一些實施方案中,前述方法進一步包括分別將用於運算一空間重建(SPAR)位元率分佈控制表之一列索引之一索引偏移儲存於該IVAS位元流之該TH區段中或自該IVAS位元流之該TH區段讀取用於運算一空間重建(SPAR)位元率分佈控制表之一列索引之一索引偏移。
在一些實施方案中,前述方法進一步包括分別將以下項儲存於該IVAS位元流之該MDP區段中或自該IVAS位元流之該MDP區段讀取以下項:一量化策略指示符;一位元流編碼策略指示符;及一組係數之經量化及經編碼實部及虛部。
在一些實施方案中,該組係數包含預測係數、直接係數、對角線實數係數及下三角複數係數。
在一些實施方案中,該等預測係數係基於熵編碼之可變位元長度,且該等直接係數、對角線實數係數及下三角複數係數係基於一降混組態及熵編碼之可變位元長度。
在一些實施方案中,該量化策略指示符係指示一量化策略之一多位元資料結構。
在一些實施方案中,該位元流編碼策略指示符係指示空間後設資料之頻帶之數目及一非差熵或時間差熵編碼方案之一多位元資料結構。
在一些實施方案中,該等係數之該量化係根據包含後設資料量化及一EVS位元率分佈之一EVS位元率分佈控制策略。
在一些實施方案中,前述方法進一步包括分別將按照第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445之EVS例項之一EVS有效負載儲存於該IVAS位元流之該EP區段中或自該IVAS位元流之該EP區段讀取按照第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445之EVS例項之一EVS有效負載。
在一些實施方案中,前述方法進一步包括:自該IVAS位元流判定一位元率;自該IVAS位元流之一空間重建(SPAR)工具標頭(TH)區段讀取一索引偏移;使用該索引偏移判定該SPAR位元率分佈控制表之一表列索引;自該IVAS位元流中之一後設資料有效負載(MDP)區段讀取量化策略位元及編碼策略位元;基於該等量化策略位元及該等編碼策略位元在該IVAS位元流之該MDP區段中取消量化SPAR空間後設資料;使用總可用EVS位元及該SPAR位元率分佈控制表判定該IVAS位元流中之各聲道之一增強語音服務(EVS)位元率;基於該EVS位元率自該IVAS位元流之該EP區段讀取EVS編碼位元;解碼該等EVS位元;及解碼該空間後設資料;及使用該等經解碼EVS位元及該經解碼空間後設資料產生一階立體混響(Ambisonics) (FoA)輸出。
本文中揭示之其他實施方案係關於一種系統、裝置及電腦可讀媒體。在下文之隨附圖式及描述中闡述所揭示實施方案之細節。自描述、圖式及發明申請專利範圍明白其他特徵、物件及優點。
本文中揭示之特定實施方案提供一或多個以下優點。所揭示IVAS位元流格式係支援一系列音訊服務能力(包含(但不限於)單聲道至立體聲升混及完全沉浸式音訊編碼、解碼及呈現)之一有效且穩健位元流格式。在一些實施方案中,該IVAS位元流格式支援用於分析及降混立體聲音訊信號之複合進階耦合(CACPL)。在其他實施方案中,該IVAS位元流格式支援用於分析及降混一階立體混響(FoA)音訊信號之空間重建(SPAR)。
在以下詳細描述中,闡述許多具體細節以提供各種所述實施例之一透徹解釋。一般技術者將明白,可在無此等具體細節之情況下實踐各種所述實施方案。在其他例項中,未詳細描述熟知方法、程序、組件及電路以免不必要地使本發明之態樣不清楚。下文描述若干特徵,其等可各彼此獨立地使用或與其他特徵之任何組合一起使用。
命名法
如本文中使用,術語「包含」及其變體應被視為意謂「包含,但不限於」之開放式術語。術語「或」應被視為「及/或」,除非背景內容清楚地另外指示。術語「基於」應被視為「至少部分基於」。術語「一個例示性實施方案」及「一例示性實施方案」應被視為「至少一個例示性實施方案」。術語「另一實施方案」應被視為「至少一個其他實施方案」。術語「經判定」、「判定」或「在判定」應被視為獲得、接收、運算、計算、估計、預測或導出。另外,在以下描述及發明申請專利範圍中,除非另外定義,否則本文中使用之全部技術及科學術語具有與本發明所屬之技術之一般技術者通常理解之相同意義。IVAS 系統概述
圖1繪示根據一或多個實施方案之一IVAS系統100。在一些實施方案中,各種器件透過經組態以自(例如)由PSTN/OTHER PLMN 104繪示之一公用切換電話網路(PSTN)或一公用陸地行動網路器件(PLMN)接收音訊信號之呼叫伺服器102通信。IVAS系統100支援僅以單聲道呈現且擷取音訊之舊型器件106,包含(但不限於):支援增強語音服務(EVS)、多速率寬頻(AMR-WB)及適應性多速率窄頻(AMR-NB)之器件。IVAS系統100亦支援擷取且呈現立體聲音訊信號之使用者設備(UE) 108、114或擷取單聲道信號且將其等雙耳呈現為多聲道信號之UE 110。IVAS系統100亦支援分別由視訊會議室系統116、118擷取且呈現之沉浸式及立體聲信號。IVAS系統100亦支援用於家庭劇院系統之立體聲音訊信號之立體聲擷取及沉浸式呈現,及用於虛擬實境(VR)裝備122及沉浸式內容攝取124之音訊信號之單聲道擷取及沉浸式呈現。例示性 IVAS 編碼 / 解碼系統
圖2係根據一或多個實施方案之用於編碼及解碼IVAS位元流之一系統200之一方塊圖。為了編碼,一IVAS編碼器包含接收音訊資料201 (包含(但不限於):單聲道信號、立體聲信號、雙耳信號、空間音訊信號(例如,多聲道空間音訊物件)、FoA、高階立體混響(HoA)及任何其他音訊資料)之空間分析及降混單元202。在一些實施方案中,空間分析及降混單元202實施用於分析/降混立體聲音訊信號之CACPL及/或用於分析/降混FoA音訊信號之SPAR。在其他實施方案中,空間分析及降混單元202實施其他格式。
空間分析及降混單元202之輸出包含空間後設資料及音訊之1至4個聲道。空間後設資料經輸入至量化且熵編碼空間資料之量化及熵編碼單元203。在一些實施方案中,量化可包含精細、中度、粗糙及額外粗糙量化策略且熵編碼可包含霍夫曼(Huffman)或算數編碼。增強語音服務(EVS)編碼單元206將音訊之1至4個聲道編碼成一或多個EVS位元流。
在一些實施方案中,EVS編碼單元206遵循3GPP TS 26.445且提供廣範圍之功能性,諸如窄頻之增強品質及編碼效率(EVS-NB)以及寬頻之增強品質及編碼效率(EVS-WB)話音服務、使用超寬頻之增強品質(EVS-SWB)話音、對話應用中之混合內容及音樂之增強品質、針對封包遺失及延遲抖動之穩健性及與AMR-WB編解碼器之反向相容性。在一些實施方案中,EVS編碼單元206包含基於模式/位元率控制207在用於編碼話音信號之一話音編碼器與用於以一指定位元率編碼音訊信號之一感知編碼器之間選擇之一預處理及模式選擇單元。在一些實施方案中,語音編碼器係用針對不同話音類別之專用基於LP模式擴展之代數碼激式線性預測(ACELP)之一經改良變體。在一些實施方案中,音訊編碼器係在低延遲/低位元率下具有經增加效率之一經修改離散餘弦變換(MDCT)編碼器且經設計以執行話音與音訊編碼器之間之無縫且可靠切換。
在一些實施方案中,一IVAS解碼器包含經組態以復原空間後設資料之量化及熵解碼單元204及經組態以復原1至4個聲道音訊信號之(若干) EVS解碼器。經復原空間後設資料及音訊信號經輸入至使用空間後設資料合成/呈現音訊信號以在各種音訊系統210上播放之空間合成/呈現單元209。例示性 IVAS/SPAR 編解碼器
圖3係根據一些實施方案之用於編碼及解碼呈SPAR格式之FoA之FoA編解碼器300之一方塊圖。FoA編解碼器300包含SPAR FoA編碼器301、EVS編碼器305、SPAR FoA解碼器306及EVS解碼器307。FoA編解碼器300將一FoA輸入信號轉換為用於在解碼器306、307處重新產生輸入信號之一組降混聲道及參數。降混信號可在1至4個聲道間變動且參數包含預測係數(PR)、交叉預測係數(C)及解相關係數(P)。應注意,SPAR係用於使用PR、C及P參數自音訊信號之一降混版本重建一音訊信號之一程序,如下文進一步詳細描述。
應注意,圖3中展示之例示性實施方案假定一被動W聲道,且描繪一標稱2聲道降混,其中W聲道經發送至解碼器306而未使用一單一預測聲道Y’修改。在其他實施方案中,W可係一主動聲道。一主動W聲道容許X、Y、Z聲道至W聲道中之某一如下混合:,
其中f係一常數(例如,0.5),其容許X、Y、Z聲道之一些至W聲道中之混合且pry、prx及prz係預測(PR)係數。在被動W中,f = 0,因此不存在X、Y、Z聲道至W聲道中之混合。
如下文進一步詳細描述,C係數容許X及Z聲道之一些自Y’重建,且剩餘聲道由W聲道之解相關版本重建,如下文進一步詳細描述。
在一些實施方案中,SPAR FoA編碼器301包含被動/主動預測器單元302、重混單元303及提取/降混選擇單元304。被動/主動預測器以一4聲道B格式(W、Y、Z、X)接收FoA聲道且運算經預測聲道(W或W’、Y’、Z’、X’)。應注意,W聲道係含有在球體中按相等增益及相位來自全部方向之全部聲音之一單向極性型樣,X係指向前之一8字形雙向極性型樣,Y係指向左側之一8字形雙向極性型樣,且Z係指向上之一8字形雙向極性型樣。
提取/降混選擇單元304自IVAS位元流之一後設資料有效負載區段提取SPAR FoA後設資料,如下文更詳細描述。被動/主動預測器單元302及重混單元303使用SPAR FoA後設資料以產生經重混FoA聲道(W或W’、A’、B’、C’),該等經重混FoA聲道經輸入至EVS編碼器305中以編碼成一EVS位元流,該EVS位元流經囊封於發送至解碼器306之IVAS位元流中。應注意,在此實例中,立體混響B格式聲道以AmbiX慣例配置。然而,亦可使用其他慣例,諸如福斯-馬爾罕(Furse-Malham) (FuMa)慣例(W、X、Y、Z)。
參考SPAR FoA解碼器306,EVS位元流由EVS解碼器307解碼,從而產生N (例如,N=4)個降混聲道。在一些實施方案中,SPAR FoA解碼器306執行由SPAR編碼器301執行之操作之一反轉。例如,使用SPAR FoA空間後設資料自N個降混聲道復原經重混FoA聲道(W或W’、A’、B’、C’)。經重混SPAR FoA聲道經輸入至逆混合器311以復原經預測SPAR FoA聲道(W或W’、Y’、Z’、X’)。經預測SPAR FoA聲道接著經輸入至逆預測器312以復原原始未混合SPAR FoA聲道(W、Y、Z、X)。應注意,在此雙聲道實例中,使用解相關器區塊309a (dec1
)、…、309n (decD
)以使用一時域或頻域解相關器產生W聲道之解相關版本。與SPAR FoA後設資料組合使用解相關聲道以完全或參數化地重建X及Z聲道。
在一些實施方案中,取決於降混聲道之數目,FoA輸入之一者經完整發送至SPAR FoA解碼器306 (W聲道),且其他聲道(Y、Z及X)之一者至三者作為殘差發送或完全參數化地發送至SPAR FoA解碼器306。PR係數(保持相同而無關於降混聲道N之數目)用於最小化殘差降混聲道中之可預測能量。C係數用於進一步輔助自殘差重新產生完全參數化聲道。因而,在一個及四個聲道降混情況中不需要C係數,其中不存在殘差聲道或參數化聲道供預測。P係數用於填充未由PR及C係數考量之剩餘能量。P係數之數目取決於各頻帶中之降混聲道N之數目。在一些實施方案中,如下計算SPAR PR係數(僅被動W)。
步驟1。使用方程式[1]自主W信號預測全部側信號(Y、Z、X)。
其中作為一實例,使用方程式[2]計算經預測聲道Y’之預測參數。
其中係對應於信號A及B之輸入協方差矩陣之元素。類似地,Z’及X’殘差聲道具有對應預測參數prz及prx。PR係預測係數之向量。
重混之一個實施方案係鑑於來自左側及右側之音訊提示比前-後更聲學相關,且前-後提示比上-下提示更聲學相關之假定,將輸入信號重新排序至W、Y’、X’、Z’。
步驟3。計算4聲道預測後及重混降混之協方差,如方程式[4]及[5]中展示。
其中d表示超出W之額外降混聲道(即,第2至Ndmx聲道),且u表示需要完全重新產生之聲道(即,第(Ndmx+1)至第4聲道)。
SPAR FoA後設資料之計算之主要關注係R_dd、R_ud及R_uu量。自R_dd、R_ud及R_uu量,系統判定是否可自發送至解碼器之殘差聲道交叉預測完全參數聲道之任何剩餘部分。在一些實施方案中,所需額外C係數由以下項給定:
因此,C參數具有用於一3聲道降混之形狀(1×2)及用於一2聲道降混之(2×1)。
P亦係一協方差矩陣,因此係赫米特(Hermitian)對稱的,且因此僅需要將來自上三角或下三角之參數發送至解碼器306。對角線項目係實數,而非對角線元素可係複數。IVAS 位元流之例示性編碼 / 解碼
如參考圖2及圖3描述,(若干) IVAS位元流由一IVAS編解碼器編碼及解碼。在一些實施方案中,一IVAS編碼器判定一編碼工具指示符及取樣率指示符並將其編碼在IVAS位元流之一共同標頭(CH)區段中。在一些實施方案中,編碼工具指示符包括對應於編碼工具之值且取樣率指示符包括指示一取樣率之值。IVAS編碼器判定一EVS有效負載並將其編碼在位元流之一EVS有效負載(EP)區段中。EP區段緊跟CH區段。IVAS編碼器判定一後設資料有效負載並將其編碼在位元流之後設資料有效負載(MDP)區段中。在一些實施方案中,MDP區段緊跟CH區段。在其他實施方案中,MDP區段緊跟位元流之EP區段或EP區段緊跟位元流之MDP區段。在一些實施方案中,IVAS編碼器將位元流儲存於一非暫時性電腦可讀媒體上或將位元流串流傳輸至一下游器件。在其他實施方案中,IVAS編碼器包含圖8中展示之器件架構。
在一些實施方案中,一IVAS解碼器接收IVAS位元流且提取並解碼藉由IVAS編碼器以IVAS格式編碼之音訊資料。IVAS解碼器提取並解碼IVAS位元流之CH區段中之編碼工具指示符及取樣率指示符。IVAS解碼器提取並解碼位元流之EP區段中之EVS有效負載。EP區段緊跟CH區段。IVAS解碼器提取並解碼位元流之MDP區段中之後設資料有效負載。MDP區段緊跟CH區段。在其他實施方案中,MDP區段緊跟位元流之EP區段或EP區段緊跟位元流之MDP區段。在一些實施方案中,IVAS系統基於編碼工具、取樣率、EVS有效負載及後設資料有效負載控制一音訊解碼器。在其他實施方案中,IVAS系統將編碼工具、取樣率、EVS有效負載及後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上。在一些實施方案中,IVAS解碼器包含圖8中展示之器件架構。
在一些實施方案中,IVAS編碼工具指示符係一多位元資料結構。在其他實施方案中,IVAS編碼工具指示符係一個三位元資料結構,其中三位元資料結構之一第一值對應於一多單聲道編碼工具,三位元資料結構之一第二值對應於一CACPL編碼工具且三位元資料結構之一第三值對應於另一編碼工具。在其他實施方案中,IVAS編碼工具指示符係指示自一至四個IVAS編碼工具之一雙位元資料結構或指示一個或兩個IVAS編碼工具之一1位元資料結構。在其他實施方案中,IVAS編碼工具指示符包含用於指示不同IVAS編碼工具之三個或三個以上位元。
在一些實施方案中,輸入取樣率指示符係指示不同輸入取樣率之一多位元資料結構。在一些實施方案中,輸入取樣率指示符係一雙位元資料結構,其中雙位元資料結構之一第一值指示一8 kHz取樣率,雙位元資料結構之一第二值指示一16 kHz取樣率,雙位元資料結構之一第三值指示一32 kHz取樣率且雙位元資料結構之一第四值指示一48 kHz取樣率。在其他實施方案中,輸入取樣率指示符係指示自一個或兩個取樣率之一個一位元資料結構。在其他實施方案中,輸入取樣率指示符包含指示不同取樣率之三個或三個以上位元。
在一些實施方案中,系統將EVS聲道之數目按以下順序儲存於位元流之EP區段中或按以下順序自位元流之EP區段讀取EVS聲道之數目:EVS聲道指示符之數目;一位元率(BR)提取模式指示符;EVS BR資料;及全部聲道之EVS有效負載,如在第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445中所述。
在其他實施方案中,系統將EVS聲道指示符之數目儲存於位元流之EP區段中或自位元流之EP區段讀取EVS聲道指示符之數目。
在其他實施方案中,系統將一位元率(BR)提取模式指示符儲存於位元流之EP區段中或自位元流之EP區段讀取位元率(BR)提取模式指示符。
在其他實施方案中,系統將EVS BR資料儲存於位元流之EP區段中或自位元流之EP區段讀取EVS BR資料。
在其他實施方案中,系統按以該順序將全部聲道之EVS有效負載儲存於位元流之EP區段中或按該順序自位元流之EP區段讀取全部聲道之EVS有效負載,如在第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445中所述。
在一些實施方案中,IVAS系統將以下項儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取以下項:一編碼技術指示符;頻帶指示符之數目;指示一濾波器組之延遲組態之一指示符;量化策略之一指示符;一熵編碼器指示符;一概率模型類型指示符;一係數實部;一係數虛部;及一或多個係數。
在其他實施方案中,IVAS系統將一編碼技術指示符儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取一編碼技術指示符。
在其他實施方案中,IVAS系統將頻帶指示符之數目儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取頻帶指示符之數目。
在其他實施方案中,IVAS系統將指示一濾波器組之延遲組態之一指示符儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取指示一濾波器組之延遲組態之一指示符。
在其他實施方案中,IVAS系統將量化策略之一指示符儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取量化策略之一指示符。
在其他實施方案中,IVAS系統將一熵編碼器指示符儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取一熵編碼器指示符。
在其他實施方案中,IVAS系統將一概率模型類型指示符儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取一概率模型類型指示符。
在其他實施方案中,IVAS系統將一係數實部儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取一係數實部。在其他實施方案中,IVAS系統將一係數虛部儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取一係數虛部。
在其他實施方案中,IVAS系統將一或多個係數儲存於資料串流之MDP區段中或自資料串流之MDP區段讀取一或多個係數。
下文繪示IVAS位元流格式之一些實例。例示性 IVAS 位元流格式 -3 細分格式
在一些實施方案中,一IVAS位元流格式包含如下3個細分。
共同標頭(CH) |
EVS有效負載(EP) |
後設資料有效負載(MDP) |
在一些實施方案中,下文描述各細分中之各欄位中之參數及其等各自位元分配。共同標頭 (CH) :
EVS 有效負載 (EP) :
後設資料有效負載 (MDP) :
IVAS編碼工具 | 3個位元 000 –多單聲道 001 – CACPL 010 –其他 011 – 111:保留 |
輸入取樣率 | 2個位元 00 – 8 kHz 01 – 16 kHz 10 – 32 kHz 11 – 48 kHz |
EVS聲道之數目(numEVS_Ch) | 4 個位元: 1至16個聲道 |
BR提取模式(BRM) | 2個位元 00 -指示EVS標稱位元率 01 –指示實際位元率(在50/100 bps之粒度下介於7.2 kbps至128 kbps之間之任何值) 10 –指示已編碼BR比率 11 -保留 |
EVS BR | 基於BRM提取 若BRM == 00 4 個位元 * numEVS_Ch 則位元率可係7200、8000、9600、13200、16400、24400、32000、48000、64000、96000、12800 若BRM == 01 11 個位元 * numEVS_Ch 則在50 bps粒度下,位元率可介於7200與128000之間,直至48000且在100 bps下高於48000 (以將BR之總數保持低於2048) 若BRM == 10 7 + 3*(numEVS_Ch) 則7個位元指示全部EVS聲道當中之最高BR (hBR) (在1000 bps粒度下自7200至128000) 針對剩餘聲道,每個聲道3個位元,指示最高位元率之分率。 其他位元率可係hBR*n,其中n可在1/8至8/8之間。 |
numEVS_Ch之EVS有效負載 | 將按照3GPP TS 26.445剖析EVS有效負載 |
CACPL | 多單聲道 | 其他 |
1個位元指示編碼技術: 全參數(FP)、中殘差(MR)或FP及MR之一混合(HY) 0 – FP或HY (存在a及b係數兩者) 1 – MR (僅存在a) | ||
2個位元指示頻帶之數目 00 – 12個頻帶 01 – 24個頻帶 10 – 36個頻帶 11 -保留 將基於IVAS CH及此欄位中之取樣率決定頻帶之實際數目。 | ||
2個位元指示濾波器組之延遲組態 00 – 1 ms 01 – 2 ms 10 – 4 ms 11 -保留 | ||
2個位元指示量化策略 00 –精細 01 -中度 10 -粗糙 11 -額外粗糙 | ||
2個位元指示熵編碼器 00 -霍夫曼 01 –算數 10 –無熵編碼 11 -保留 | ||
1個位元-概率模型之類型(若熵編碼器係00或01,則僅編碼此位元) 0 –絕對概率模型 1 –差概率模型 | ||
「a」係數實部(霍夫曼/算數/非熵編碼) | ||
「a」係數虛部(霍夫曼/算數/非熵編碼) | ||
「b」係數(霍夫曼/算數/非熵編碼) |
上文描述之IVAS位元流格式實施例之一優點係其有效地且精簡地編碼支援一系列音訊服務能力(包含(但不限於)單聲道至立體聲升混及完全沉浸式音訊編碼、解碼及呈現)之資料。其亦由廣泛範圍之器件、端點及網路節點支援,包含(但不限於):行動電話及智慧型電腦、電子平板電腦、個人電腦、會議電話、會議室、虛擬實境(VR)及擴增實境(AR)器件、家庭劇院器件及其他適合器件,該等器件之各者可具有用於聲音擷取及呈現之各種聲介面。IVAS位元流格式可擴展使得其可容易地隨著IVAS標準及技術演進。例示性 IVAS 位元流格式 -4 細分格式
一進一步實施例之以下描述將專注於其與先前所述實施例之間之差異。因此,兩個實施例共同之特徵可自以下描述省略,且若如此,則應假定先前所述實施例之特徵係或至少可實施於進一步實施例中,除非其以下描述另有要求。另外,當一特徵自下文揭示之實施方案獲取且添加至一發明申請專利範圍時,該特徵可不與實施方案之其他特徵相關或緊密聯繫。
在其他實施方案中,IVAS位元流包含如下4個細分。
共同標頭(CH) |
共同空間編碼工具標頭(CTH) |
EVS有效負載-EP或後設資料有效負載(MDP) |
後設資料有效負載-MDP或EVS有效負載(EP) |
在一些實施方案中,一IVAS編碼器判定一編碼工具指示符並將其編碼在IVAS位元流之一共同標頭(CH)區段中。編碼工具指示符包括對應於編碼工具之值。IVAS編碼器判定至一IVAS位元率分佈控制表之一列索引並將其編碼在IVAS位元流之一共同空間編碼工具標頭(CTH)區段中。CTH區段緊跟CH區段。IVAS編碼器判定一EVS有效負載並將其編碼在IVAS位元流之一EVS有效負載(EP)區段中。EP區段緊跟CH區段。IVAS編碼器判定一後設資料有效負載並將其編碼在IVAS位元流之後設資料有效負載(MDP)區段中。MDP區段緊跟CH區段。
在一些實施方案中,取決於一或多個參數,EP區段位於MDP區段之前或之後。在一些實施方案中,一或多個參數包含一多聲道輸入之一單聲道降混與如3GPP TS 26.445中描述之標稱位元率模式之一反向相容性模式。
在一些實施方案中,IVAS系統將IVAS位元流儲存於一非暫時性電腦可讀媒體上。在其他實施方案中,IVAS系統將位元流串流傳輸至一下游器件。在一些實施方案中,IVAS編碼器包含圖8中展示之器件架構。
在一些實施方案中,一IVAS解碼器接收IVAS位元流且提取並解碼藉由IVAS編碼器以IVAS格式編碼之音訊資料。IVAS解碼器提取並解碼IVAS位元流之CH區段中之編碼工具指示符。IVAS解碼器提取索引且將索引解碼至IVAS位元率分佈控制表。IVAS解碼器提取並解碼IVAS位元流之EP區段中之EVS有效負載。EP區段緊跟CH區段。IVAS解碼器提取並解碼IVAS位元流之MDP區段中之後設資料有效負載。MDP區段緊跟CH區段。
在一些實施方案中,取決於一或多個參數,EP區段位於MDP區段之前或之後。在一些實施方案中,一或多個參數包含與如3GPP TS 26.445中描述之標稱位元率模式之一多聲道輸入之一單聲道降混之一反向相容性模式。
在一些實施方案中,IVAS系統基於編碼工具、至IVAS位元率分佈控制表之索引、EVS有效負載及後設資料有效負載控制一音訊解碼器。在其他實施方案中,IVAS系統將編碼工具、至IVAS位元率分佈控制表之索引、EVS有效負載及後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上。在一些實施方案中,IVAS解碼器包含圖8中展示之器件架構。共同標頭 (CH) :
共同空間編碼工具標頭 (CTH) :
後設資料有效負載 (MDP) :
IVAS空間編碼工具 | 3個位元 000 –多單聲道 001 – CACPL 010 –其他 011 – 111:保留 |
共同空間編碼工具標頭 | 可變長度 在一些實施方案中,此欄位之長度取決於IVAS位元率分佈控制表中之IVAS操作位元率項目之數目。 在一些實施方案中,此欄位之值係指向一IVAS位元率分佈控制表列索引(列索引係相對於IVAS操作位元率之第一項目索引)之一索引偏移。 |
IVAS位元率分佈控制表之一優點係其擷取關於空間編碼模式之資訊,使得關於空間編碼模式之資訊不需要被包含於MDP區段中。
EVS 有效負載 (EP) :
CACPL | 多單聲道 | 其他 |
2個位元指示濾波器組之頻帶數 00 – 12個頻帶 01 – 24個頻帶 10 – 36個頻帶 11 -保留 在一些實施方案中,基於CTH及此欄位指向之IVAS位元率分佈控制表索引判定頻帶之實際數目。 | ||
2個位元指示濾波器組之延遲組態 00 – 1 ms 01 – 2 ms 10 – 4 ms 11 -保留 | ||
2個位元指示量化策略 00 –精細 01 -中度 10 -粗糙 11 -額外粗糙 | ||
2個位元指示熵編碼器 00 -霍夫曼 01 –算數 10 –無熵編碼 11 -保留 | ||
1個位元-概率模型之類型(若熵編碼器係00或01,則僅編碼此位元) 0 –絕對概率模型 1 –差概率模型 | ||
「a」係數實部(霍夫曼/算數/非熵編碼) | ||
「a」係數虛部(霍夫曼/算數/非熵編碼) | ||
「b」係數(霍夫曼/算數/非熵編碼) |
有效負載之此區段含有一或多個音訊降混聲道之EVS編碼位元。在一些實施方案中,此區段中之位元之總數可由給定,其中N (例如,N=4)係需要編碼之音訊降混聲道之數目,EVS_BR (i)係第i音訊降混聲道之經計算EVS位元率且stride_secs係以秒為單位之輸入步幅長度。
在一些實施方案中,IVAS位元率分佈控制表中之各表項目具有足以自為EVS分配之總位元提取各EVS例項之位元率之資訊。此結構提供在EVS有效負載中不需要額外標頭資訊以為各EVS例項提取位元之優點。
全部音訊降混聲道之EVS有效負載 | 將按照3GPP TS 26.445剖析EVS有效負載 |
在一些實施方案中,一IVAS位元率分佈控制表中之參數具有以下值:
輸入格式 | 立體聲– 1 平面FoA - 2 FoA - 3 |
頻寬(BW) | NB (窄頻) – 0 WB (寬頻) – 1 SWB (超寬頻) – 2 FB (全頻帶) - 3 |
容許空間編碼工具 | FP (全參數) – 0 MR (中殘差) – 1 |
轉變模式 | MR至FP轉變– 1 其他- 0 |
單聲道降混反向相容模式: | 若係中間或W,則聲道應與3GPP TS 26. 455 – 1之標稱位元率模式反向相容。 其他- 0 |
一例示性IVAS位元率分佈控制表如下。
IVAS 位元流之例示性解碼
IVAS 操作 位元率 | 輸入 格式 | BW | 空間 音訊編碼模式 | 轉變 模式 | 單聲道降混反向相容性模式 | EVS 目標 位元率 | BR 比率 | EVS 最小位元率 | EVS BR 偏差 步長 (bps) |
16.4 | 1 | 1 | 1 | 0 | 0 | 11400 | (1, 0) | 9000 | (200, 400, 800) |
16.4 | 1 | 2 | 1 | 0 | 0 | 11400 | (1, 0) | 9000 | (200, 400, 800) |
16.4 | 1 | 2 | 1 | 0 | 1 | 9600 | (1, 0) | 9600 | (0, 0, 0) |
24.4 | 1 | 1 | 1 | 0 | 0 | 19200 | (1, 0) | 16400 | (200, 400, 800) |
24.4 | 1 | 1 | 2 | 0 | 0 | 19200 | (3, 2) | 16400 | (50, 100, 200) |
24.4 | 1 | 1 | 1 | 1 | 0 | 19200 | (3, 2) | 16400 | (50, 100, 200) |
24.4 | 2 | 1 | 1 | 0 | 0 | 16400 | (1, 0, 0) | 13200 | (200, 400, 800) |
24.4 | 1 | 2 | 1 | 0 | 0 | 19200 | (1, 0) | 16400 | (200, 400, 800) |
24.4 | 1 | 2 | 2 | 0 | 0 | 19200 | (3, 2) | 16400 | (50, 100, 200) |
24.4 | 1 | 2 | 1 | 1 | 0 | 19200 | (3, 2) | 16400 | (50, 100, 200) |
24.4 | 1 | 2 | 2 | 0 | 1 | 19200 | (1, 1) | 19200 | (0, 0, 0) |
24.4 | 2 | 2 | 1 | 0 | 0 | 16400 | (1, 0, 0) | 13200 | (200, 400, 800) |
24.4 | 2 | 2 | 1 | 0 | 1 | 13200 | (1, 0, 0) | 13200 | (0, 0, 0) |
24.4 | 1 | 3 | 1 | 0 | 0 | 19200 | (1, 0) | 16400 | (200, 400, 800) |
32 | 1 | 1 | 2 | 0 | 0 | 28000 | (3, 2) | 24400 | (50, 100, 200) |
32 | 2 | 1 | 1 | 0 | 0 | 23200 | (1, 0, 0) | 19200 | (400, 800, 1200) |
32 | 3 | 1 | 1 | 0 | 0 | 20800 | (1, 0, 0, 0) | 16400 | (400, 800, 1200) |
32 | 1 | 2 | 1 | 0 | 0 | 28000 | (1, 0) | 24400 | (400, 800, 1200) |
32 | 1 | 2 | 2 | 0 | 0 | 28000 | (3, 2) | 24400 | (50, 100, 200) |
32 | 1 | 2 | 2 | 0 | 1 | 26000 | (41, 24) | 26000 | (0, 0, 0) |
32 | 1 | 2 | 1 | 1 | 0 | 28000 | (3, 2) | 24400 | (50, 100, 200) |
32 | 2 | 2 | 1 | 0 | 0 | 26600 | (1, 0, 0) | 25200 | (400, 800, 1200) |
32 | 2 | 2 | 2 | 0 | 0 | 26600 | (3, 2, 2) | 25200 | (50, 100, 200) |
32 | 2 | 2 | 1 | 0 | 1 | 16400 | (1, 0, 0) | 16400 | (0, 0, 0) |
32 | 2 | 2 | 1 | 1 | 0 | 26600 | (3, 2, 2) | 25200 | (50, 100, 200 |
32 | 3 | 2 | 1 | 0 | 0 | 20800 | (1, 0, 0, 0) | 16400 | (400, 800, 1200) |
32 | 1 | 3 | 1 | 0 | 0 | 26000 | (1, 0) | 23200 | (400, 800, 1200) |
32 | 2 | 3 | 1 | 0 | 0 | 26400 | (1, 0, 0) | 23200 | (400, 800, 1200) |
48 | 1 | 1 | 2 | 0 | 0 | 44000 | (3, 2) | 40000 | (100, 200, 400) |
48 | 2 | 1 | 2 | 0 | 0 | 40000 | (3, 2, 2) | 36000 | (100, 200, 400) |
48 | 3 | 1 | 2 | 0 | 0 | 39600 | (3, 2, 2, 2) | 34200 | (100, 200, 300) |
48 | 1 | 2 | 2 | 0 | 0 | 44000 | (3, 2) | 40000 | (100, 200, 400) |
48 | 1 | 2 | 2 | 0 | 1 | 40800 | (61, 41) | 40800 | (0, 0, 0) |
48 | 2 | 2 | 2 | 0 | 0 | 40000 | (3, 2, 2) | 36000 | (100, 200, 400) |
48 | 2 | 2 | 2 | 0 | 1 | 35600 | (41, 24, 24) | 35600 | (0, 0, 0) |
48 | 3 | 2 | 1 | 0 | 0 | 34000 | (1, 0, 0, 0) | 30000 | (600, 1000, 1600) |
48 | 3 | 2 | 1 | 0 | 1 | 24400 | (1, 0, 0, 0) | 24400 | (0, 0, 0) |
48 | 1 | 3 | 1 | 0 | 0 | 44000 | (1, 0) | 40000 | (600, 1000, 1600) |
48 | 1 | 3 | 2 | 0 | 0 | 44000 | (3, 2) | 40000 | (100, 200, 400) |
48 | 1 | 3 | 1 | 1 | 0 | 44000 | (3, 2) | 40000 | (100, 200, 400) |
48 | 2 | 3 | 1 | 0 | 0 | 39200 | (1, 0, 0) | 35200 | (600, 1000, 1600) |
48 | 3 | 3 | 1 | 0 | 0 | 34000 | (1, 0, 0, 0) | 30000 | (600, 1000, 1600) |
64 | 1 | 1 | 2 | 0 | 0 | 60000 | (3, 2) | 56000 | (100, 200, 400) |
64 | 2 | 1 | 2 | 0 | 0 | 57400 | (3, 2, 2) | 52500 | (100, 200, 400) |
64 | 3 | 1 | 2 | 0 | 0 | 52000 | (3, 2, 2, 2) | 45000 | (100, 200, 300) |
64 | 1 | 2 | 2 | 0 | 0 | 60000 | (3, 2) | 56000 | (100, 200, 400) |
64 | 1 | 2 | 2 | 0 | 1 | 48800 | (1, 1) | 48800 | (0, 0, 0) |
64 | 2 | 2 | 2 | 0 | 0 | 57400 | (3, 2, 2) | 52200 | (100, 200, 400) |
64 | 2 | 2 | 2 | 0 | 1 | 50800 | (61, 33, 33) | 50800 | (0, 0, 0) |
64 | 3 | 2 | 2 | 0 | 0 | 52000 | (3, 2, 2, 2) | 45000 | (100, 200, 300) |
64 | 3 | 2 | 2 | 0 | 1 | 45200 | (41, 24, 24, 24) | 45200 | (0, 0, 0) |
64 | 1 | 3 | 2 | 0 | 0 | 60000 | (3, 2) | 56000 | (100, 200, 400) |
64 | 2 | 3 | 1 | 0 | 0 | 57400 | (1, 0, 0) | 52500 | (800, 1200, 2000) |
64 | 2 | 3 | 2 | 0 | 0 | 57400 | (3, 2, 2) | 52500 | (100, 200, 400) |
64 | 2 | 3 | 1 | 1 | 0 | 57400 | (3, 2, 2) | 52500 | (100, 200, 400) |
64 | 3 | 3 | 1 | 0 | 0 | 48000 | (1, 0, 0, 0) | 40000 | (800, 1200, 2000) |
96 | 1 | 1 | 2 | 0 | 0 | 90000 | (3, 2) | 86000 | (200, 400, 600) |
96 | 2 | 1 | 2 | 0 | 0 | 86000 | (3, 2, 2) | 78000 | (200, 300, 400) |
96 | 3 | 1 | 2 | 0 | 0 | 84000 | (3, 2, 2, 2) | 76000 | (100, 200, 300) |
96 | 1 | 2 | 2 | 0 | 0 | 90000 | (3, 2) | 86000 | (200, 400, 600) |
96 | 1 | 2 | 2 | 0 | 1 | 88000 | (6, 5) | 88000 | (0, 0, 0) |
96 | 2 | 2 | 2 | 0 | 0 | 86000 | (3, 2, 2) | 78000 | (200, 300, 400) |
96 | 2 | 2 | 2 | 0 | 1 | 80800 | (80, 61, 61) | 80800 | (0, 0, 0) |
96 | 3 | 2 | 2 | 0 | 0 | 84000 | (3, 2, 2, 2) | 76000 | (100, 200, 300) |
96 | 3 | 2 | 2 | 0 | 1 | 81200 | (80, 41, 41, 41) | 81200 | (0, 0, 0) |
96 | 1 | 3 | 2 | 0 | 0 | 90000 | (3, 2) | 86000 | (200, 400, 600) |
96 | 2 | 3 | 2 | 0 | 0 | 86000 | (3, 2, 2) | 78000 | (200, 300, 400) |
96 | 3 | 3 | 1 | 0 | 0 | 84000 | (1, 0, 0, 0) | 76000 | (1000, 2000, 3000) |
96 | 3 | 3 | 2 | 0 | 0 | 84000 | (3, 2, 2, 2) | 76000 | (100, 200, 300) |
96 | 3 | 3 | 1 | 1 | 0 | 84000 | (3, 2, 2, 2) | 76000 | (100, 200, 300) |
128 | 1 | 1 | 2 | 0 | 0 | 122000 | (3, 2) | 118000 | (200, 400, 600) |
128 | 2 | 1 | 2 | 0 | 0 | 118000 | (3, 2, 2) | 110000 | (200, 300, 400) |
128 | 3 | 1 | 2 | 0 | 0 | 116000 | (3, 2, 2, 2) | 108000 | (100, 200, 300) |
128 | 1 | 2 | 2 | 0 | 0 | 122000 | (3, 2) | 118000 | (200, 400, 600) |
128 | 2 | 2 | 2 | 0 | 0 | 118000 | (3, 2, 2) | 110000 | (200, 300, 400) |
128 | 3 | 2 | 2 | 0 | 0 | 116000 | (3, 2, 2, 2) | 108000 | (100, 200, 300) |
128 | 1 | 3 | 2 | 0 | 0 | 122000 | (3, 2) | 118000 | (200, 400, 600) |
128 | 2 | 3 | 2 | 0 | 0 | 118000 | (3, 2, 2) | 110000 | (200, 300, 400) |
128 | 3 | 3 | 2 | 0 | 0 | 116000 | (3, 2, 2, 2) | 108000 | (100, 200, 300) |
256 | 1 | 1 | 2 | 0 | 0 | 248000 | (3, 2) | 244000 | (400, 800, 1000) |
256 | 2 | 1 | 2 | 0 | 0 | 244000 | (3, 2, 2) | 236000 | (300, 500, 800) |
256 | 3 | 1 | 2 | 0 | 0 | 240000 | (3, 2, 2, 2) | 232000 | (300, 400, 600) |
256 | 1 | 2 | 2 | 0 | 0 | 248000 | (3, 2) | 244000 | (400, 800, 1000) |
256 | 2 | 2 | 2 | 0 | 0 | 244000 | (3, 2, 2) | 236000 | (300, 500, 800) |
256 | 3 | 2 | 2 | 0 | 0 | 240000 | (3, 2, 2, 2) | 232000 | (300, 400, 600) |
256 | 1 | 3 | 2 | 0 | 0 | 248000 | (3, 2) | 244000 | (400, 800, 1000) |
256 | 2 | 3 | 2 | 0 | 0 | 244000 | (3, 2, 2) | 236000 | (300, 500, 800) |
256 | 3 | 3 | 2 | 0 | 0 | 240000 | (3, 2, 2, 2) | 232000 | (300, 400, 600) |
在一實施例中,解碼一IVAS位元率之步驟如下:
步驟1:基於位元流及stride_secs之長度運算IVAS操作位元率。
步驟2:讀取指示空間編碼工具之固定長度CH區段。
步驟3:基於IVAS操作位元率,藉由檢查IVAS位元率分佈控制表中之IVAS操作位元率(在步驟1中計算)之項目之數目而判定CTH欄位之長度。
步驟3:一旦已知CTH欄位之長度,便讀取CTH欄位中之索引偏移。
步驟5:使用索引偏移及IVAS操作位元率判定實際IVAS位元率分佈控制表索引。
步驟6:自經編索引表項目讀取關於EVS位元率分佈及單聲道降混反向相容性之全部資訊。
步驟7:若單聲道降混反向相容性模式係開,則首先將剩餘IVAS位元傳遞至EVS解碼器,基於EVS位元率分佈計算各EVS例項之位元長度,讀取各EVS例項之EVS位元,使用對應EVS解碼器解碼EVS位元且解碼MDP區段中之空間後設資料。
步驟8:若單聲道降混反向相容性模式係關,則解碼MDP區段中之空間後設資料,基於EVS位元率分佈計算各EVS例項之位元長度且自IVAS位元流之EP區段讀取並解碼各EVS例項之EVS位元。
步驟9:使用經解碼EVS輸出及空間後設資料以建構輸入音訊格式,諸如立體聲(CACPL)或FoA (SPAR)。
上文描述之IVAS位元流格式實施例之一優點係其有效地且精簡地編碼支援一系列音訊服務能力(包含(但不限於)單聲道至立體聲升混及完全沉浸式音訊編碼、解碼及呈現)之資料。其亦由廣泛範圍之器件、端點及網路節點支援,包含(但不限於):行動電話及智慧型電腦、電子平板電腦、個人電腦、會議電話、會議室、虛擬實境(VR)及擴增實境(AR)器件、家庭劇院器件及其他適合器件,該等器件之各者可具有用於聲音擷取及呈現之各種聲介面。IVAS位元流格式可擴展,使得其可容易地隨著IVAS標準及技術演進。例示性 IVAS SPAR 編碼 / 解碼
一進一步實施例之以下描述將專注於其與先前所述實施例之間之差異。因此,兩個實施例共同之特徵可自以下描述省略,且若如此,則應假定先前所述實施例之特徵係或至少可實施於進一步實施例中,除非其以下描述另有要求。另外,當一特徵自下文揭示之實施方案獲取且添加至一發明申請專利範圍時,該特徵可不與實施方案之其他特徵相關或緊密聯繫。
在一些實施方案中,一IVAS SPAR編碼器判定一編碼模式/工具指示符並將其編碼在一IVAS位元流之一共同標頭(CH)區段中。編碼模式/工具指示符具有對應於編碼模式/工具之值。IVAS位元流判定一模式標頭/工具標頭並將其編碼在IVAS位元流之一工具標頭(TH)區段中,其中TH區段緊跟CH區段。IVAS SPAR編碼器判定一後設資料有效負載並將其編碼在IVAS位元流之一後設資料有效負載(MDP)區段中,其中MDP區段緊跟CH區段。IVAS SPAR編碼器判定一增強語音服務(EVS)有效負載並將其編碼在IVAS位元流之一EVS有效負載(EP)區段中,其中EP區段緊跟CH區段。在一些實施方案中,IVAS系統將位元流儲存於一非暫時性電腦可讀媒體上。在其他實施方案中,IVAS系統將位元流串流傳輸至一下游器件。在一些實施方案中,IVAS SPAR編碼器包含參考圖8描述之器件架構。
在一些實施方案中,EP區段緊跟MDP區段。應注意,使EP區段緊跟IVAS位元流之MDP區段確保有效位元包裝,且容許MDP位元及EP位元之數目(按照位元率分佈演算法)變動確保利用IVAS位元率預算中之全部可用位元。
在一些實施方案中,一IVAS SPAR解碼器提取並解碼以一IVAS SPAR格式編碼之一IVAS位元流。IVAS SPAR解碼器提取並解碼一位元流之CH區段中之編碼模式/工具指示符。編碼模式/工具指示符具有對應於編碼模式/工具之值。IVAS SPAR解碼器提取並解碼位元流之工具標頭(TH)區段中之模式標頭/工具標頭。TH區段緊跟CH區段。IVAS SPAR解碼器提取並解碼位元流之MDP區段中之後設資料有效負載。MDP區段緊跟CH區段。IVAS SPAR解碼器解碼位元流之一EP區段中之一EVS有效負載。EP區段緊跟CH區段。
在一些實施方案中,IVAS系統基於編碼模式、工具標頭、EVS有效負載及後設資料有效負載控制一音訊解碼器。在其他實施方案中,IVAS系統將編碼模式、工具標頭、EVS有效負載及後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上。在一些實施方案中,IVAS SPAR解碼器包含參考圖8描述之器件架構。
在一些實施方案中,CH包含一個三位元資料結構,其中三位元資料結構之值之一者對應於一SPAR編碼模式,且剩餘值對應於其他編碼模式。三位元資料結構係有利的,此係因為其容許可指示高達8個編碼模式之一精簡程式碼。在其他實施方案中,CH包含少於3個位元。在其他實施方案中,CH包含多於3個位元。
在一些實施方案中,IVAS系統將指向一SPAR位元率分佈控制表中之一列之一列索引儲存於IVAS位元流之TH區段中或自IVAS位元流之TH區段讀取指向一SPAR位元率分佈控制表中之一列之一列索引。例如,可基於對應於IVAS操作位元率之列之數目如下般運算列索引:x = ceil(log2(對應於IVAS位元率之列之數目))。因此,TH區段之長度可變。
在一些實施方案中,系統將以下項儲存於IVAS位元流之MDP區段中或自IVAS位元流之MDP區段讀取以下項:一量化策略指示符;一編碼策略指示符;及一或多個係數之經量化及經編碼實部及虛部。
在其他實施方案中,系統將一量化策略指示符儲存於IVAS位元流之MDP區段中或自IVAS位元流之MDP區段讀取一量化策略指示符。
在其他實施方案中,系統將一編碼策略指示符儲存於IVAS位元流之MDP區段中或自IVAS位元流之MDP區段讀取一編碼策略指示符。
在其他實施方案中,系統將一或多個係數之經量化及經編碼實部及虛部儲存於IVAS位元流之MDP區段中或自IVAS位元流之MDP區段讀取一或多個係數之經量化及經編碼實部及虛部。
在一些實施方案中,一或多個係數包含(但不限於):預測係數、交叉預測係數(或直接係數)、實數(對角線)解相關器係數及複數(非對角線)解相關器係數。
在一些實施方案中,將更多或更少係數儲存於IVAS位元流之MDP區段中且自IVAS位元流之MDP區段讀取更多或更少係數。
在一些實施方案中,IVAS系統將按照3GPP TS 26.445之全部聲道之EVS有效負載儲存於IVAS位元流之EP區段中或自IVAS位元流之EP區段讀取按照3GPP TS 26.445之全部聲道之EVS有效負載。
下文繪示使用SPAR格式化之一例示性IVAS位元流。IVAS位元流包含如下4個細分。
共同標頭(CH):
共同標頭(CH) |
工具標頭(TH) |
後設資料有效負載(MDP) |
EVS有效負載(EP) |
在一些實施方案中,如下般格式化IVAS共同標頭(CH)。
工具標頭(TH):
位元之數目 | 描述 | 值 |
3 | 此欄位係指定一IVAS編碼模式/編碼工具之一編碼模式/工具指示符 | 2 - SPAR FoA 0、1、3、4、5、6、7 -其他 |
在一些實施方案中,SPAR工具標頭(TH)係至一SPAR位元率分佈控制表之一索引偏移。
位元之數目 | 描述 | 值 |
x | 至一SPAR位元率分佈表之列索引。 此欄位之長度可變。 x = ceil(log2(對應於所使用之IVAS位元率之列之數目)) |
下文展示一SPAR位元率分佈控制表之一例示性實施方案。各IVAS位元率可支援頻寬(BW)之一或多個值、降混組態(dmx ch、dmx字串)、主動W、複數旗標、轉變模式值、EVS位元率組、後設資料量化位準集及解相關器音量降低(ducking)旗標。在此例示性實施方案中,由於每一位元率僅存在一個項目,故SPAR TH區段之位元之數目係0。在下文之表中使用之縮寫字如下般定義:
PR:預測係數,
C:交叉預測係數(或直接係數),
P_r:實數(對角線)解相關器係數,
P_c:複數(非對角線)解相關器係數。
一例示性SPAR位元率分佈控制表如下。
後設資料有效負載 (MDP) :
IVAS 位元率 | BW | dmx ch | d mx 字串 | 主動 W | 完整 x 旗標 | d mx 切換 轉變模式 ( 佔位符 ) | EVS ( 目標、 最小值 、 最大值 ) BR (bps) | 後設 資料量化位準 目標 / 回落 1/ 回落 2 | 解相關器音量降低 |
32000 | 3 | 1 | WYXZ | 1 | 0 | 0 | W - 24000, 20450, 31950 | PR = 21, 15, 15 P_r = 5, 5, 3 P_c = 1, 1, 1 | 0 |
64000 | 3 | 2 | WYXZ | 0 | 0 | 0 | W - 38000, 34050, 56000; Y' - 16000, 14850, 20400 | PR = 15, 15, 15 C = 9, 7, 7 P_r = 9, 7, 7 P_c = 5, 3, 1 | 1 |
96000 | 3 | 3 | WYXZ | 0 | 0 | 0 | W - 47000, 44000, 56000; Y' - 23000, 20450, 31950; X' - 16000, 14850, 20400 | PR = 15, 15, 15 C = 9, 7, 7 P_r = 9, 7, 7 | 1 |
160000 | 3 | 3 | WYXZ | 0 | 0 | 0 | W - 74000, 69000, 112000; Y' - 41000, 40050, 56000; X' - 35000, 34050, 56000 | PR = 31, 31, 31 C = 9, 7, 7 P_r = 9, 7, 7 | 1 |
256000 | 3 | 4 | WYXZ | 0 | 0 | 0 | W - 91900, 87000, 112000; Y' - 68050, 68050, 112000; X' - 52000, 48000, 56000; Z' - 34050, 34050, 56000 | PR = 31, 31, 31 PR = 63, 63, 63 | 1 |
一例示性後設資料有效負載(MDP)如下。
EVS 有效負載 (EP) :
位元之數目 | 描述 | 值 |
x | x個位元指示量化策略(量化策略索引) x = ceil(log2(量化策略之數目)) | 全部量化策略係依據自精細至粗糙或額外粗糙量化之位元率 |
3 | 3個位元指示用於編碼經量化後設資料之編碼策略。 | 0 - 12頻帶空間後設資料,非差熵編碼 0 - 6頻帶空間後設資料,非差熵編碼 2 - 12頻帶空間後設資料,非差base2編碼 3 - 6頻帶空間後設資料,非差base2編碼 4 - 12頻帶空間後設資料,時間差方案1熵編碼 5 - 12頻帶空間後設資料,時間差方案2熵編碼 6 - 12頻帶空間後設資料,時間差方案3熵編碼 7 - 12頻帶空間後設資料,時間差方案4熵編碼 |
預測係數(PR)位元 | 預測係數位元-基於熵編碼之可變位元長度 | |
C係數位元 | 直接係數位元-基於降混組態及熵編碼之可變位元長度 | |
P_r係數位元 | 對角線實數P係數位元-基於降混組態及熵編碼之可變位元長度 | |
P_c係數位元 | 下三角複數P係數位元-基於降混組態及熵編碼之可變位元長度 |
在一些實施方案中,使用一EVS位元率分佈控制策略執行各降混聲道之實際EVS位元率之後設資料量化及計算。下文描述一EVS位元率分佈控制策略之一例示性實施方案。例示性 EVS 位元率分佈控制策略
在一些實施方案中,一EVS位元率分佈控制策略包含兩個區段:後設資料量化及EVS位元率分佈。
後設資料量化
。在此區段中存在兩個經定義臨限值:一目標參數位元率臨限值(MDtar)及一最大目標位元率臨限值(MDmax)。
步驟1:針對每一訊框,參數以一非時間差方式量化且使用一熵編碼器編碼。在一些實施方案中,使用一算數編碼器。在其他實施方案中,使用一霍夫曼編碼器。若參數位元率估計低於MDtar,則將任何額外可用位元供應至音訊編碼器以增加音訊基本資料(essence)之位元率。
步驟2:若步驟1失敗,則將訊框中之參數值之一子集量化且自一先前訊框中之量化參數值減去且使用熵編碼器編碼差量化參數值。若參數位元率估計低於MDtar,則將任何額外可用位元供應至音訊編碼器以增加音訊基本資料之位元率。
步驟3:若步驟2失敗,則不使用熵計算量化參數之位元率。
步驟4:比較步驟1、步驟2及步驟3之結果與MDmax。若步驟1、步驟2及步驟3之最小值在MDmax內,則剩餘位元經編碼且提供至音訊編碼器。
步驟5:若步驟4失敗,則更粗糙地量化參數且重複上文之步驟作為一第一回落策略(回落1)。
步驟6:若步驟5失敗,則使用保證符合MDmax之一量化方案量化參數作為一第二回落策略(回落2)。在上文提及之全部反覆之後,保證後設資料位元率將符合MDmax,且編碼器將產生實際後設資料位元或Metadata_actual_bits (MDact)。
EVS 位元率分佈 (EVSbd)
。針對此區段,以下定義適用。
EVStar: EVS目標位元,各EVS例項之所要位元。
EVSact: EVS實際位元,全部EVS例項可用之實際位元之總和。
EVSmin: EVS最小位元,各EVS例項之最小位元。EVS位元率應絕不低於由此等位元指示之值。
EVSmax: EVS最大位元,各EVS例項之最大位元。EVS位元率應絕不高於由此等位元指示之值。
EVS W: 編碼W聲道之EVS例項。
EVS Y: 編碼Y聲道之EVS例項。
EVS X: 編碼X聲道之EVS例項。
EVS Z: 編碼Z聲道之EVS例項。
EVSact = IVAS_bits - header_bits - MDact
若EVSact小於全部EVS例項之EVStar之總和,則按以下順序(Z、X、Y、W)自EVS例項獲取位元。可自任何聲道獲取之最大位元= EVStar(ch) - EVSmin(ch)。
若EVSact大於全部EVS例項之EVStar之總和,則按以下順序(W、Y、X、Z)將全部額外位元指派至降混聲道。可添加至任何聲道之最大額外位元= EVSmax(ch) - EVStar(ch)。
上文描述之EVSbd方案針對全部聲道運算實際EVS位元率:分別用於W、Y、X及Z聲道之EWa、EYa、EXa、EZa。在各聲道由具有EWa、EYa、EXa及EZa位元率之單獨EVS例項編碼之後,將全部EVS位元串接且包裝在一起。此組態之一優點係不需要額外標頭以指示任何聲道之EVS位元率。
在一些實施方案中,EP區段如下。
例示性 SPAR 解碼器位元流 解 包裝
位元之數目 | 描述 | 值 |
EWa | 按照3GPP TS 26.445之W聲道之EVS編碼位元 | |
EYa | 按照3GPP TS 26.445之Y’聲道之EVS編碼位元 | |
EXa | 按照3GPP TS 26.445之X’聲道之EVS編碼位元 | |
EZa | 按照3GPP TS 26.445之Z’聲道之EVS編碼位元 |
在一些實施方案中,如下般描述SPAR解碼器位元流解包裝之步驟:
步驟1:自經接收位元緩衝器之一長度判定IVAS位元率。
步驟2:在SPAR位元率分佈控制表中基於IVAS位元率之項目之數目剖析SPAR TH區段以提取一索引偏移,其中索引偏移由IVAS操作位元率判定。
步驟3:使用索引偏移判定SPAR位元率分佈控制表之一實際表列索引,且讀取由實際表列索引指向之SPAR位元率分佈控制表列之全部行。
步驟4:自IVAS位元流之MDP區段讀取量化策略及編碼策略位元,且基於經指示量化策略及編碼策略取消量化MPD區段中之SPAR空間後設資料。
步驟5:基於總EVS位元率(待自IVAS位元流讀取之剩餘位元),按照上文描述之EVS位元率分佈(EVSbd)判定各聲道之一實際EVS位元率。
步驟6:基於實際EVS位元率自IVAS位元流之EP區段讀取經編碼EVS位元且使用一各自EVS例項解碼FoA音訊信號之各聲道。
步驟7:使用經解碼EVS輸出及空間後設資料以建構FoA (SPAR)音訊信號。
上文描述之IVAS位元流格式實施例之一優點係其有效地且精簡地編碼支援一系列音訊服務能力(包含(但不限於)單聲道至立體聲升混及完全沉浸式音訊編碼、解碼及呈現(例如,FoA編碼))之資料。其亦由廣泛範圍之器件、端點及網路節點支援,包含(但不限於):行動電話及智慧型電腦、電子平板電腦、個人電腦、會議電話、會議室、虛擬實境(VR)及擴增實境(AR)器件、家庭劇院器件及其他適合器件,該等器件之各者可具有用於聲音擷取及呈現之各種聲介面。IVAS位元流格式可擴展,使得其可容易地隨著IVAS標準及技術演進。例示性程序 - 呈 CACPL 格式之 IVAS 位元流
圖4A係根據一實施例之一IVAS編碼程序400之一流程圖。程序400可使用如參考圖8描述之器件架構實施。
程序400包含使用一IVAS編碼器判定一編碼工具指示符及取樣率指示符並在一IVAS位元流之一共同標頭(CH)區段中編碼編碼工具指示符及取樣率指示符(401)。在一些實施方案中,工具指示符具有對應於編碼工具之值且取樣率指示符具有指示一取樣率之值。
程序400進一步包含使用IVAS編碼器判定一增強語音服務(EVS)有效負載並在IVAS位元流之一EVS有效負載(EP)區段中編碼增強語音服務(EVS)有效負載(402)。在一些實施方案中,EP區段緊跟CH區段。
程序400進一步包含使用IVAS編碼器判定後設資料有效負載中之一後設資料有效負載且在IVAS位元流之後設資料有效負載(MDP)區段中編碼後設資料有效負載(403)。在一些實施方案中,MDP區段緊跟CH區段。在一些實施方案中,EP區段緊跟位元流之MDP區段。
程序400進一步包含將IVAS位元流儲存於一非暫時性電腦可讀媒體上或將IVAS位元流串流傳輸至一下游器件(404)。
圖4B係根據一實施例之使用一替代IVAS格式之一IVAS編碼程序405之一流程圖。程序405可包含如參考圖8描述之器件架構。
程序405包含使用一IVAS編碼器判定一編碼工具指示符且在一IVAS位元流之一共同標頭(CH)區段中編碼編碼工具指示符(406)。在一些實施方案中,工具指示符具有對應於編碼工具之值。
程序405進一步包含使用IVAS編碼器在IVAS位元流之一共同空間編碼工具標頭(CTH)區段中編碼一IVAS位元率分佈控制表之一表示(407)。
程序405進一步包含使用IVAS編碼器判定一後設資料有效負載且在IVAS位元流之後設資料有效負載(MDP)區段中編碼後設資料有效負載(408)。在一些實施方案中,MDP區段緊跟IVAS位元流之CH區段。
程序405進一步包含使用IVAS編碼器判定一增強語音服務(EVS)有效負載且在IVAS位元流之一EVS有效負載(EP)區段中編碼增強語音服務(EVS)有效負載(409)。在一些實施方案中,EP區段緊跟IVAS位元流之CH區段。在一些實施方案中,MDP區段緊跟IVAS位元流之EP區段。
程序405進一步包含將IVAS位元流儲存於一儲存器件上或將IVAS位元流串流傳輸至一下游器件(410)。
圖5A係根據一實施例之一IVAS解碼程序500之一流程圖。程序500可使用如參考圖8描述之器件架構實施。
程序500包含使用一IVAS解碼器自一IVAS位元流之一共同標頭(CH)區段提取並解碼一編碼工具指示符及取樣率指示符(501)。在一些實施方案中,工具指示符具有對應於編碼工具之值且取樣率指示符具有指示一取樣率之值。
程序500進一步包含使用IVAS解碼器自IVAS位元流之一增強語音服務(EVS)有效負載(EP)區段提取並解碼一EVS有效負載(502)。在一些實施方案中,EP區段緊跟IVAS位元流之CH區段。
程序500進一步包含使用IVAS解碼器自位元流之後設資料有效負載(MDP)區段提取並解碼一後設資料有效負載(503)。在一些實施方案中,MDP區段緊跟IVAS位元流之CH區段。在一些實施方案中,EP區段緊跟IVAS位元流之MDP區段。
程序500進一步包含基於編碼工具、取樣率、EVS有效負載及後設資料有效負載控制一音訊解碼器,或將編碼工具、取樣率、EVS有效負載及後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上(504)。
圖5B係根據一實施例之使用一替代格式之一IVAS解碼程序505之一流程圖。程序505可使用如參考圖8描述之器件架構實施。
程序505包含使用一IVAS解碼器在一IVAS位元流之一共同標頭(CH)區段中提取並解碼一編碼工具指示符(506)。在一些實施方案中,工具指示符具有對應於編碼工具之值。
程序505進一步包含使用IVAS解碼器在IVAS位元流之一共同空間編碼工具標頭(CTH)區段中提取並解碼一IVAS位元率分佈控制表之一表示(507)。
程序505進一步包含使用IVAS解碼器在IVAS位元流之後設資料有效負載(MDP)區段中解碼一後設資料有效負載(508)。在一些實施方案中,MDP區段緊跟IVAS位元流之CH區段。
程序505進一步包含使用IVAS解碼器在IVAS位元流之一增強語音服務(EVS)有效負載(EP)區段中解碼一EVS有效負載(509)。在一些實施方案中,EP區段緊跟IVAS位元流之CH區段。在一些實施方案中,MDP區段緊跟IVAS位元流之EP區段。
程序505進一步包含基於編碼工具指示符、IVAS位元率分佈控制表之表示、後設資料有效負載及EVS有效負載控制一音訊解碼器,或將編碼工具指示符之一表示、IVAS位元率分佈控制表之表示、後設資料有效負載及EVS有效負載儲存於一儲存器件上(510)。例示性程序 - 呈 SPAR 格式之 IVAS 位元流
圖6係根據一實施例之一IVAS SPAR編碼程序600之一流程圖。程序600可使用如參考圖8描述之器件架構實施。
程序600包含在一IVAS位元流之一共同標頭(CH)區段中解碼一編碼模式/編碼工具指示符且使用一IVAS編碼器編碼編碼模式/編碼工具指示符(601)。
程序600進一步包含使用IVAS編碼器判定一模式標頭/工具標頭中之一SPAR位元率分佈控制表之一表示並將其編碼在IVAS位元流之一工具標頭(TH)區段中(602),其中TH區段緊跟CH區段。
程序600進一步包含使用IVAS編碼器判定一後設資料有效負載並在IVAS位元流之後設資料有效負載(MDP)區段中編碼後設資料有效負載(603)。在一些實施方案中,MDP區段緊跟IVAS位元流之CH區段。
在一些實施方案中,MDP區段包含:一量化策略指示符;一編碼策略指示符;及一或多個係數之經量化及經編碼實部及虛部。在一些實施方案中,一或多個係數包含(但不限於):預測係數、交叉預測係數(或直接係數)、實數(對角線)解相關器係數及複數(非對角線)解相關器係數。在一些實施方案中,將更多或更少係數儲存於IVAS位元流之MDP區段中且自IVAS位元流之MDP區段讀取更多或更少係數。
程序600進一步包含使用IVAS編碼器判定一增強語音服務(EVS)有效負載並在IVAS位元流之一EVS有效負載(EP)區段中編碼EVS有效負載(604)。在一些實施方案中,IVAS位元流之EP區段包含按照3GPP TS 26.445之全部聲道之EVS有效負載。在一些實施方案中,EP區段緊跟IVAS位元流之CH區段。在一些實施方案中,EP區段緊跟MDP區段。應注意,使EP區段緊跟IVAS位元流之MDP區段確保有效位元包裝,且容許MDP位元及EP位元之數目(按照位元率分佈演算法)變動確保利用IVAS位元率預算中之全部可用位元。
程序600進一步包含將位元流儲存於一非暫時性電腦可讀媒體上或將位元流串流傳輸至一下游器件(605)。
圖7係根據一實施例之一IVAS SPAR解碼程序700之一流程圖。程序700可使用如參考圖8描述之器件架構實施。
程序700包含使用一IVAS解碼器在一IVAS位元流之共同標頭(CH)區段中提取並解碼一編碼模式指示符(701)。
程序700包含使用IVAS解碼器在IVAS位元流之一工具標頭(TH)區段中提取並解碼一模式標頭/工具標頭中之一SPAR位元率分佈控制表之一表示(702)。在一些實施方案中,TH區段緊跟CH區段。
程序700進一步包含使用IVAS解碼器自IVAS位元流之一後設資料有效負載(MDP)區段提取並解碼一後設資料有效負載(703)。在一些實施方案中,MDP區段緊跟IVAS位元流之CH區段。
程序700進一步包含使用IVAS解碼器自IVAS位元流之一增強語音服務(EVS)有效負載(EP)區段提取並解碼一EVS有效負載(704)。在一些實施方案中,EP區段緊跟CH區段。在一些實施方案中,EP區段緊跟MDP區段。應注意,使EP區段緊跟IVAS位元流之MDP區段確保有效位元包裝,且容許MDP位元及EP位元之數目(按照位元率分佈演算法)變動確保利用IVAS位元率預算中之全部可用位元。
程序700進一步包含基於編碼模式指示符、SPAR位元率分佈控制表之表示、EVS有效負載及後設資料有效負載控制一音訊解碼器,或將編碼模式指示符之一表示、SPAR位元率分佈控制表之表示、EVS有效負載及後設資料有效負載儲存於一非暫時性電腦可讀媒體上(705)。例示性系統架構
圖8展示適合於實施本發明之例示性實施例之一例示性系統800之一方塊圖。系統800包含一或多個伺服器電腦或任何用戶端器件,包含(但不限於)圖1中展示之任何器件,諸如呼叫伺服器102、舊型器件106、使用者設備108、114、會議室系統116、118、家庭劇院系統、VR裝備122及沉浸式內容攝取124。系統800包含任何消費型器件,包含(但不限於):智慧型電話、平板電腦、穿戴型電腦、車輛電腦、遊戲機、環場系統、資訊站(kiosk)。
如展示,系統800包含能夠根據儲存於(例如)一唯讀記憶體(ROM) 802中之一程式或自(例如)一儲存單元808載入至一隨機存取記憶體(RAM) 803之一程式執行各種程序之一中央處理單元(CPU) 801。在RAM 803中,亦視需要儲存在CPU 801執行各種程序時所需之資料。CPU 801、ROM 802及RAM 803經由一匯流排804彼此連接。一輸入/輸出(I/O)介面805亦連接至匯流排804。
以下組件連接至I/O介面805:一輸入單元806,其可包含一鍵盤、一滑鼠或類似者;一輸出單元807,其可包含一顯示器(諸如一液晶顯示器(LCD))及一或多個揚聲器;儲存單元808,其包含一硬碟或另一適合儲存器件;及一通信單元809,其包含一網路介面卡,諸如一網路卡(例如,有線或無線)。
在一些實施方案中,輸入單元806包含實現呈各種格式(例如,單聲道、立體聲、空間、沉浸式及其他適合格式)之音訊信號之擷取之(取決於主機器件)在不同位置中之一或多個麥克風。
在一些實施方案中,輸出單元807包含具有各種數目個揚聲器之系統。如圖1中繪示,輸出單元807 (取決於主機器件之能力)可以各種格式(例如,單聲道、立體聲、沉浸式、雙耳及其他適合格式)呈現音訊信號。
通信單元809經組態以(例如,經由一網路)與其他器件通信。一驅動器810亦視需要連接至I/O介面805。一可抽換式媒體811 (諸如一磁碟、一光碟、一磁光碟、一快閃隨身碟或另一適合可抽換式媒體)安裝於驅動器810上,使得自其讀取之一電腦程式視需要安裝於儲存單元808中。熟習此項技術者將理解,雖然將系統800描述為包含上述組件,但在真實應用中,可添加、移除及/或替換此等組件之一些且全部此等修改或更改全部落在本發明之範疇內。其他實施方案
在一實施例中,一種產生一音訊信號之一位元流之方法包括:使用一IVAS編碼器判定一編碼工具指示符及一取樣率指示符,該編碼工具指示符具有對應於編碼工具之值且該取樣率指示符具有指示一取樣率之值;使用該IVAS編碼器在一IVAS位元流之一共同標頭(CH)區段中編碼該編碼工具指示符及該取樣率指示符;使用該IVAS編碼器判定一增強語音服務(EVS)有效負載;使用該IVAS編碼器在該IVAS位元流之一EVS有效負載(EP)區段中編碼該EVS有效負載,其中該EP區段緊跟該CH區段;使用該IVAS編碼器判定一後設資料有效負載;使用該IVAS編碼器在該IVAS位元流之後設資料有效負載(MDP)區段中編碼該後設資料有效負載,其中該MDP區段緊跟該CH區段;及將該IVAS位元流儲存於一非暫時性電腦可讀媒體上或將該IVAS位元流串流傳輸至一下游器件。
在一實施例中,一種解碼一音訊信號之一位元流之方法包括:使用一IVAS解碼器自一IVAS位元流之一CH區段提取並解碼一編碼工具指示符及取樣率指示符,該工具指示符具有對應於編碼工具之值,該取樣率指示符具有指示一取樣率之值;使用該IVAS解碼器自該位元流之一EP區段提取並解碼一EVS有效負載,該EP區段緊跟該CH區段;使用該IVAS解碼器自該位元流之一MDP區段解碼一後設資料有效負載,該MDP區段緊跟該CH區段;及基於該編碼工具、該取樣率、該EVS有效負載及該後設資料有效負載控制一音訊解碼器,或將該編碼工具、該取樣率、該EVS有效負載及該後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上。
在一實施例中,該MDP區段緊跟該位元流之該EP區段或該EP區段緊跟該位元流之該MDP區段。
在一實施例中,該IVAS編碼工具指示符係一個三位元資料結構,該三位元資料結構之一第一值對應於一多單聲道編碼工具,該三位元資料結構之一第二值對應於一複合進階耦合(CACPL)編碼工具,該三位元資料結構之一第三值對應於另一編碼工具。
在一實施例中,該輸入取樣率指示符係一雙位元資料結構,該雙位元資料結構之一第一值指示一8 kHz取樣率,該雙位元資料結構之一第二值指示一16 kHz取樣率,該雙位元資料結構之一第三值指示一32 kHz取樣率且該雙位元資料結構之一第四值指示一48 kHz取樣率。
在一實施例中,前述方法包括分別將以下項儲存於該位元流之該EP區段中或自該位元流之該EP區段讀取以下項:EVS聲道指示符之數目;一位元率(BR)提取模式指示符;EVS BR資料;及EVS有效負載。
在一實施例中,前述方法包括分別將以下項儲存於資料串流之該MDP區段中或自資料串流之該MDP區段讀取以下項:一編碼技術指示符;頻帶指示符之數目;指示一濾波器組之延遲組態之一指示符;量化策略之一指示符;一熵編碼器指示符;一概率模型類型指示符;一係數實部;一係數虛部;及一或多個係數。
在一實施例中,產生一音訊信號之一位元流之方法包括:使用一IVAS編碼器判定一編碼工具指示符,該工具指示符具有對應於編碼工具之值;使用該IVAS編碼器在一IVAS位元流之一共同標頭(CH)區段中編碼該編碼工具指示符;使用該IVAS編碼器判定一IVAS位元率分佈控制表索引之一表示;使用該IVAS編碼器在該IVAS位元流之一共同空間編碼工具標頭(CTH)區段中編碼一IVAS位元率分佈控制表索引之該表示,其中該CTH區段緊跟該CH區段;使用該IVAS編碼器判定一後設資料有效負載;使用該IVAS編碼器在該IVAS位元流之後設資料有效負載(MDP)區段中編碼該後設資料有效負載,其中該MDP區段緊跟該CTH區段;使用該IVASE編碼器判定一增強語音服務(EVS)有效負載;使用該IVAS編碼器在該IVAS位元流之一EVS有效負載(EP)區段中編碼該EVS有效負載,其中該EP區段緊跟該CTH區段;及將該位元流儲存於一非暫時性電腦可讀媒體上或將該位元流串流傳輸至一下游器件。
在一實施例中,一種解碼一音訊信號之一位元率之方法包括:藉由一IVAS解碼器接收一位元流;基於該位元流及步幅之長度運算一IVAS操作位元率;自該位元流之一共同標頭(CH)區段讀取一空間編碼工具之一指示符;基於該IVAS操作位元率判定該位元流之一共同空間編碼工具標頭(CTH)區段之一長度,該判定包含檢查對應於該CTH區段中之一IVAS位元率分佈控制表中之該IVAS操作位元率之項目之數目;在判定該CTH區段之該長度之後讀取該CTH區段中之值以判定一IVAS位元率分佈控制表索引;自對應於該IVAS位元率分佈控制表索引之該IVAS位元率分佈控制表之一項目讀取關於增強語音服務(EVS)位元率分佈之資訊;及將關於EVS位元率分佈之該資訊提供至一EVS解碼器。
在一實施例中,前述方法之任何者包括自該IVAS位元率分佈控制表之該項目讀取與3GPP TS 26.445之單聲道降混反向相容性之一指示符。
在一實施例中,前述包括:判定該單聲道降混反向相容性指示符在一開模式中;及回應於該開模式:將該位元流之剩餘部分提供至該EVS解碼器;接著基於該EVS位元率分佈自該位元流之一剩餘部分計算各EVS例項之一各自位元長度;基於一對應位元長度讀取各EVS例項之EVS位元;及將該等EVS位元提供至該EVS解碼器作為第一部分;將該位元流之剩餘部分提供至一MDP解碼器以解碼空間後設資料。
在一實施例中,前述方法包括:判定該單聲道降混反向相容性指示符在一關模式中;及回應於該關模式:將該位元流之剩餘部分提供至一MDP解碼器以解碼空間後設資料;接著基於該EVS位元率分佈自該位元流之一剩餘部分計算各EVS例項之一各自位元長度;基於一對應位元長度讀取各EVS例項之EVS位元;及將該等EVS位元提供至該EVS解碼器作為該第一部分。
在一實施例中,一種系統包括:一或多個電腦處理器;及一非暫時性電腦可讀媒體,其儲存在藉由該一或多個處理器執行時引起該一或多個處理器執行前述方法請求項中任一項之操作之指令。
在一實施例中,一種非暫時性電腦可讀媒體儲存在藉由一或多個處理器執行時引起該一或多個處理器執行前述方法請求項中任一項之操作之指令。
根據本發明之例示性實施例,上文描述之程序可被實施為電腦軟體程式或在一電腦可讀儲存媒體上實施。例如,本發明之實施例包含一電腦程式產品,其包含體現於一機器可讀媒體上之一電腦程式,該電腦程式包含用於執行方法之程式碼。在此等實施例中,電腦程式可經由通信單元809自網路下載並安裝及/或自可抽換式媒體811安裝,如圖8中展示。
一般言之,本發明之各項實例實施例可實施為硬體或專用電路(例如,控制電路)、軟體、邏輯或其等之任何組合。例如,上文論述之單元可由控制電路(例如,與圖8之其他組件組合之一CPU)執行,因此,控制電路可在執行本發明中描述之動作。一些態樣可實施為硬體,而其他態樣可實施為可藉由一控制器、微處理器或其他運算器件(例如,控制電路)執行之韌體或軟體。雖然將本發明之例示性實施例之各種態樣繪示且描述為方塊圖、流程圖或使用某一其他圖示,但應瞭解,作為非限制性實例,本文中描述之方塊、裝置、系統、技術或方法可實施為硬體、軟體、韌體、專用電路或邏輯、通用硬體或控制器或其他運算器件或其等之某一組合。
另外,可將流程圖中展示之各種方塊視為方法步驟及/或視為源自電腦程式碼之操作之操作及/或視為經建構以實行(若干)相關聯功能之複數個耦合邏輯電路元件。例如,本發明之實施例包含一電腦程式產品,該電腦程式產品包含體現於一機器可讀媒體上之一電腦程式,電腦程式含有經組態以實行如上文描述之方法之程式碼。
在本發明之背景內容中,一機器可讀媒體可係可含有或儲存一程式用於由或結合一指令執行系統、裝置或器件使用之任何有形媒體。機器可讀媒體可係一機器可讀信號媒體或一機器可讀儲存媒體。一機器可讀媒體可係非暫時性的且可包含(但不限於)一電子、磁性、光學、電磁、紅外或半導體系統、裝置、或器件或前述之任何適合組合。機器可讀儲存媒體之更特定實例將包含:具有一或多個導線之一電連接、一攜帶型電腦磁碟、一硬碟、一隨機存取記憶體(RAM)、一唯讀記憶體(ROM)、一可擦除可程式化唯讀記憶體(EPROM或快閃記憶體)、一光纖、一攜帶型光碟唯讀記憶體(CD-ROM)、一光學儲存器件、一磁性儲存器件或前述之任何適合組合。
用於實行本發明之方法之電腦程式碼可以一或多個程式設計語言之任何組合撰寫。可將此等電腦程式碼提供至一通用電腦、專用電腦或具有控制電路之其他可程式化資料處理裝置之一處理器,使得程式碼在藉由電腦或其他可程式化資料處理裝置之處理器執行時引起在流程圖及/或方塊圖中指定之功能/操作被實施。程式碼可完全在一電腦上、部分在電腦上、作為一獨立套裝軟體、部分在電腦上且部分在一遠端電腦上或完全在遠端電腦或伺服器上執行或在一或多個遠端電腦及/或伺服器上分佈。
雖然本文檔含有許多具體實施方案細節,但不應將此等細節理解為對可主張之內容之範疇之限制,而是應理解為對特定實施例所特有的特徵之描述。亦可在一單一實施例中組合實施本說明書中在各別實施例之內容背景中描述之特定特徵。相反地,亦可在多個實施例中單獨地或以任何適合子組合實施在一單一實施例之內容背景中描述之各種特徵。再者,雖然在上文將特徵描述為以特定組合作用且甚至最初如此主張,但在一些情況中,來自一所主張組合之一或多個特徵可自該組合去除且該所主張組合可係關於一子組合或一子組合之變動。圖中描繪之邏輯流程不需要所展示之特定順序或循序順序以達成所要結果。另外,可提供其他步驟,或可自所述流程消除步驟,且可將其他組件添加至所述系統或自所述系統移除其他組件。因此,其他實施方案在以下發明申請專利範圍之範疇內。
100:沉浸式語音及音訊服務(IVAS)系統
102:呼叫伺服器
104:公用切換電話網路(PSTN)/其他公用陸地行動網路器件(PLMN)
106:舊型器件
108:使用者設備(UE)
110:使用者設備(UE)
114:使用者設備(UE)
116:視訊會議室系統
118:視訊會議室系統
122:虛擬實境(VR)裝備
124:沉浸式內容攝取
200:系統
201:音訊資料
202:空間分析及降混單元
203:量化及熵編碼單元
204:量化及熵解碼單元
206:增強語音服務(EVS)編碼單元
207:模式/位元率控制
209:空間合成/呈現單元
300:一階立體混響(FoA)編解碼器
301:空間重建(SPAR)一階立體混響(FoA)
302:被動/主動預測器單元
303:重混單元
304:提取/降混選擇單元
305:增強語音服務(EVS)編碼器
306:空間重建(SPAR)一階立體混響(FoA)解碼器
307:增強語音服務(EVS)解碼器
309A至309N:解相關器區塊
311:逆混合器
312:逆預測器
400:沉浸式語音及音訊服務(IVAS)編碼程序
401:步驟
402:步驟
403:步驟
404:步驟
405:沉浸式語音及音訊服務(IVAS)編碼程序
406:步驟
407:步驟
408:步驟
409:步驟
410:步驟
500:沉浸式語音及音訊服務(IVAS)解碼程序
501:步驟
502:步驟
503:步驟
504:步驟
505:沉浸式語音及音訊服務(IVAS)解碼程序
506:步驟
507:步驟
508:步驟
509:步驟
510:步驟
600:沉浸式語音及音訊服務(IVAS)空間重建(SPAR)編碼程序
601:步驟
602:步驟
603:步驟
604:步驟
605:步驟
700:沉浸式語音及音訊服務(IVAS)空間重建(SPAR)解碼程序
701:步驟
702:步驟
703:步驟
704:步驟
705:步驟
800:系統
801:中央處理單元(CPU)
802:唯讀記憶體(ROM)
803:隨機存取記憶體(RAM)
804:匯流排
805:輸入/輸出(I/O)介面
806:輸入單元
807:輸出單元
808:儲存單元
809:通信單元
810:驅動器
811:可抽換式媒體
在圖式中,為了易於描述,展示示意性元件(諸如表示器件、單元、指令區塊及資料元件之元件)之特定配置或順序。然而,熟習此項技術者應理解,圖式中之示意性元件之特定順序或配置不意欲暗示需要處理之一特定順序或序列或程序之分離。此外,在一些實施方案中,在一圖式中包含一示意性元件不意欲暗示在全部實施例中需要此元件或由此元件表示之特徵可不包含於其他元件中或與其他元件組合。
此外,在其中連接元件(諸如實線或虛線或箭頭)用於繪示兩個或兩個以上其他示意性元件之間或當中之一連接、關係或關聯之圖式中,缺乏任何此等連接元件不意欲暗示可不存在連接、關係或關聯。換言之,未在圖式中展示元件之間之一些連接、關係或關聯以免使本發明不清楚。另外,為了易於圖解說明,使用一單一連接元件以表示元件之間之多個連接、關係或關聯。例如,在一連接元件表示信號、資料或指令之一通信之情況中,熟習此項技術者應理解,此等元件可視需要表示一個或多個信號路徑以實現通信。
圖1繪示根據一實施例之一IVAS系統。
圖2係根據一實施例之用於編碼及解碼IVAS位元流之一系統之一方塊圖。
圖3係根據一實施例之用於編碼及解碼呈FoA格式之IVAS位元流之一FoA編碼器/解碼器(「編解碼器」)之一方塊圖。
圖4A係根據一實施例之一IVAS編碼程序之一流程圖。
圖4B係根據一實施例之使用一替代IVAS格式之一IVAS編碼程序之一流程圖。
圖5A係根據一實施例之一IVAS解碼程序之一流程圖。
圖5B係根據一實施例之使用一替代IVAS格式之一IVAS解碼程序之一流程圖。
圖6係根據一實施例之一IVAS SPAR編碼程序之一流程圖。
圖7係根據一實施例之一IVAS SPAR解碼程序之一流程圖。
圖8係根據一實施例之一例示性器件架構之一方塊圖。
在各種圖式中使用之相同元件符號指示相同元件。
110:使用者設備(UE)
200:系統
201:音訊資料
202:空間分析及降混單元
203:量化及熵編碼單元
204:量化及熵解碼單元
206:增強語音服務(EVS)編碼單元
207:模式/位元率控制
209:空間合成/呈現單元
Claims (29)
- 一種產生一音訊信號之一位元流之方法,其包括: 使用一沉浸式語音及音訊服務(IVAS)編碼器判定一編碼模式指示符或編碼工具指示符,該編碼模式指示符或編碼工具指示符指示該音訊信號之一編碼模式或編碼工具; 使用該IVAS編碼器在一IVAS位元流之一共同標頭(CH)區段中編碼該編碼模式指示符或編碼工具指示符; 使用該IVAS編碼器判定一模式標頭或工具標頭; 使用該IVAS編碼器在該IVAS位元流之一工具標頭(TH)區段中編碼該模式或工具標頭,其中該TH區段緊跟該CH區段; 使用該IVAS編碼器判定包含空間後設資料之一後設資料有效負載; 使用該IVAS編碼器在該IVAS位元流之一後設資料有效負載(MDP)區段中編碼該後設資料有效負載,其中該MDP區段緊跟該CH區段;及 使用該IVAS編碼器判定一增強語音服務(EVS)有效負載,該EVS有效負載包含該音訊信號之各聲道或降混聲道之EVS編碼位元;及 使用該IVAS編碼器在該IVAS位元流之一EVS有效負載(EP)區段中編碼該EVS有效負載,其中該EP區段緊跟該CH區段。
- 如請求項1之方法,其進一步包括: 將該IVAS位元流儲存於一非暫時性電腦可讀媒體上或將該IVAS位元流串流傳輸至一下游器件,其中該編碼模式或編碼工具指示符、該模式標頭或工具標頭、該後設資料有效負載及該EVS有效負載係分別自該IVAS位元流之該等CH、TH、MDP及EP區段提取並解碼用於該音訊信號在該下游器件或另一器件上之重建。
- 如請求項1或2之方法,其中該CH係一多位元資料結構,其中該多位元資料結構之一個值對應於一空間重建(SPAR)編碼模式且該資料結構之其他值對應於其他編碼模式。
- 如請求項1或2之方法,其包括分別將用於運算一空間重建(SPAR)位元率分佈控制表之一列索引之一索引偏移儲存於該IVAS位元流之該TH區段中或自該IVAS位元流之該TH區段讀取用於運算一空間重建(SPAR)位元率分佈控制表之一列索引之一索引偏移。
- 如請求項1或2之方法,其包括分別將以下項儲存於該IVAS位元流之該MDP區段中或自該IVAS位元流之該MDP區段讀取以下項: 一量化策略指示符; 一位元流編碼策略指示符;及 一組係數之經量化及經編碼實部及虛部。
- 如請求項1或2之方法,其中該EP區段緊跟該MDP區段以確保有效位元包裝,且該IVAS位元流之該MDP區段中之位元之一數目及該IVAS位元流之該EP區段中之位元之一數目根據該SPAR位元率分佈控制表及一位元率分佈演算法變動以確保利用一IVAS位元率預算中之全部可用位元。
- 如請求項1或2之方法,其中各EVS編碼聲道或降混聲道之一位元率由EVS之總可用位元、一位元率分佈控制表及一位元率分佈演算法判定。
- 如前述請求項5中任一項之方法,其中該組係數包含預測係數、直接係數、對角線實數係數及下三角複數係數。
- 如請求項8之方法,其中該等預測係數係基於熵編碼之可變位元長度,且該等直接係數、對角線實數係數及下三角複數係數係基於一降混組態及熵編碼之可變位元長度。
- 如請求項5之方法,其中該量化策略指示符係指示一量化策略之一多位元資料結構。
- 如請求項5之方法,其中該位元流編碼策略指示符係指示空間後設資料之頻帶之一數目及一非差熵或時間差熵編碼方案之一多位元資料結構。
- 如請求項5之方法,其中該等係數之該量化係根據包含後設資料量化及一EVS位元率分佈之一EVS位元率分佈控制策略。
- 如請求項1或2之方法,其包括分別將按照第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445之EVS例項之一EVS有效負載儲存於該位元流之該EP區段中或自該位元流之該EP區段讀取按照第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445之EVS例項之一EVS有效負載。
- 一種解碼一音訊信號之一位元流之方法,其包括: 使用一沉浸式語音及音訊服務(IVAS)解碼器在一IVAS位元流之一共同標頭(CH)區段中提取並解碼一編碼模式指示符或編碼工具指示符,該編碼模式指示符或編碼工具指示符指示該音訊信號之一編碼模式或編碼工具; 使用該IVAS解碼器在該IVAS位元流之該工具標頭(TH)區段中提取並解碼一模式標頭或工具標頭,該TH區段緊跟該CH區段; 使用該IVAS解碼器自該IVAS位元流之後設資料有效負載(MDP)區段提取並解碼一後設資料有效負載,該MDP區段緊跟該CH區段,該後設資料有效負載包含空間後設資料;及 使用該IVAS解碼器自該IVAS位元流之一增強語音服務(EVS)有效負載(EP)區段提取並解碼一EVS有效負載,該EP區段緊跟該CH區段,該EVS有效負載包含該音訊信號之各聲道或降混聲道之EVS編碼位元。
- 如請求項14之方法,其進一步包括: 基於該編碼模式指示符或編碼工具指示符、該模式標頭或工具標頭、該EVS有效負載及該後設資料有效負載控制一下游器件之一音訊解碼器用於該音訊信號在該下游器件或另一器件上之重建,或將該編碼模式指示符或編碼工具指示符、該模式標頭或工具標頭、該EVS有效負載及該後設資料有效負載之一表示儲存於一非暫時性電腦可讀媒體上。
- 如請求項14或15之方法,其中該CH係一多位元資料結構,其中該多位元資料結構之一個值對應於一空間重建(SPAR)編碼模式且該資料結構之其他值對應於其他編碼模式。
- 如請求項14或15之方法,其包括分別將用於運算一空間重建(SPAR)位元率分佈控制表之一列索引之一索引偏移儲存於該IVAS位元流之該TH區段中或自該IVAS位元流之該TH區段讀取用於運算一空間重建(SPAR)位元率分佈控制表之一列索引之一索引偏移。
- 如請求項14或15之方法,其包括分別將以下項儲存於該IVAS位元流之該MDP區段中或自該IVAS位元流之該MDP區段讀取以下項: 一量化策略指示符; 一位元流編碼策略指示符;及 一組係數之經量化及經編碼實部及虛部。
- 如請求項14或15之方法,其中該EP區段緊跟該MDP區段以確保有效位元包裝,且該IVAS位元流之該MDP區段中之位元之一數目及該IVAS位元流之該EP區段中之位元之一數目根據該SPAR位元率分佈控制表及一位元率分佈演算法變動以確保利用一IVAS位元率預算中之全部可用位元。
- 如請求項14或15之方法,其中各EVS編碼聲道或降混聲道之一位元率由EVS之總可用位元、一位元率分佈控制表及一位元率分佈演算法判定。
- 如前述請求項18中任一項之方法,其中該組係數包含預測係數、直接係數、對角線實數係數及下三角複數係數。
- 如請求項21之方法,其中該等預測係數係基於熵編碼之可變位元長度,且該等直接係數、對角線實數係數及下三角複數係數係基於一降混組態及熵編碼之可變位元長度。
- 如請求項18之方法,其中該量化策略指示符係指示一量化策略之一多位元資料結構。
- 如請求項18之方法,其中該位元流編碼策略指示符係指示空間後設資料之頻帶之一數目及一非差熵或時間差熵編碼方案之一多位元資料結構。
- 如請求項18之方法,其中該等係數之量化係根據包含後設資料量化及一EVS位元率分佈之一EVS位元率分佈控制策略。
- 如請求項14或15之方法,其包括分別將按照第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445之EVS例項之一EVS有效負載儲存於該位元流之該EP區段中或自該位元流之該EP區段讀取按照第三代合作夥伴計劃(3GPP)技術規範(TS) 26.445之EVS例項之一EVS有效負載。
- 如請求項14或15之方法,其進一步包括: 自該IVAS位元流判定一位元率; 自該IVAS位元流之一空間重建(SPAR)工具標頭(TH)區段讀取一索引偏移; 使用該索引偏移判定該SPAR位元率分佈控制表之一表列索引; 自該IVAS位元流中之一後設資料有效負載(MDP)區段讀取量化策略位元及編碼策略位元; 基於該等量化策略位元及該等編碼策略位元在該IVAS位元流之該MDP區段中取消量化SPAR空間後設資料; 使用總可用EVS位元、一SPAR位元率分佈控制表及一位元率分佈演算法判定該IVAS位元流中之各聲道之一增強語音服務(EVS)位元率; 基於該EVS位元率自該IVAS位元流之該EP區段讀取EVS編碼位元; 解碼該等EVS位元; 解碼該空間後設資料;及 使用該等經解碼EVS位元及該經解碼空間後設資料產生一階立體混響(FoA)輸出。
- 一種系統,其包括: 一或多個處理器;及 一非暫時性電腦可讀媒體,其儲存在藉由該一或多個處理器執行時引起該一或多個處理器執行如方法請求項1至27中任一項之操作之指令。
- 一種非暫時性電腦可讀媒體,其儲存在藉由一或多個處理器執行時引起該一或多個處理器執行如方法請求項1至27中任一項之操作之指令。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962881541P | 2019-08-01 | 2019-08-01 | |
US62/881,541 | 2019-08-01 | ||
US201962927894P | 2019-10-30 | 2019-10-30 | |
US62/927,894 | 2019-10-30 | ||
US202063037721P | 2020-06-11 | 2020-06-11 | |
US63/037,721 | 2020-06-11 | ||
US202063057666P | 2020-07-28 | 2020-07-28 | |
US63/057,666 | 2020-07-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202121399A true TW202121399A (zh) | 2021-06-01 |
Family
ID=72139693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109126091A TW202121399A (zh) | 2019-08-01 | 2020-07-31 | Ivas位元流之編碼及解碼 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20220284910A1 (zh) |
EP (1) | EP4008000A1 (zh) |
JP (1) | JP2022543083A (zh) |
KR (1) | KR20220042166A (zh) |
CN (1) | CN114175151A (zh) |
AU (1) | AU2020320270A1 (zh) |
BR (1) | BR112022000230A2 (zh) |
CA (1) | CA3146169A1 (zh) |
CL (1) | CL2022000206A1 (zh) |
IL (1) | IL289449A (zh) |
MX (1) | MX2022001152A (zh) |
TW (1) | TW202121399A (zh) |
WO (1) | WO2021022087A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202205261A (zh) * | 2020-06-11 | 2022-02-01 | 美商杜拜研究特許公司 | 具有改良連續性之音訊信號之適應性降混 |
MX2022015649A (es) * | 2020-06-11 | 2023-03-06 | Dolby Laboratories Licensing Corp | Cuantificacion y codificacion entropica de parametros para un codec de audio de baja latencia. |
WO2023147864A1 (en) * | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
WO2023172865A1 (en) * | 2022-03-10 | 2023-09-14 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing |
WO2024097485A1 (en) * | 2022-10-31 | 2024-05-10 | Dolby Laboratories Licensing Corporation | Low bitrate scene-based audio coding |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2334934T3 (es) * | 2002-09-04 | 2010-03-17 | Microsoft Corporation | Codificacion de entropia por adaptacion de codificacion entre modalidades de nivel y de longitud de sucesion y nivel. |
KR101452722B1 (ko) * | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
DK3353779T3 (da) * | 2015-09-25 | 2020-08-10 | Voiceage Corp | Fremgangsmåde og system til kodning af et stereolydssignal ved at anvende kodningsparametre for en primær kanal til at kode en sekundær kanal |
US10854209B2 (en) * | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
CN111656445B (zh) * | 2017-10-27 | 2023-10-27 | 弗劳恩霍夫应用研究促进协会 | 解码器处的噪声衰减 |
EP3595361B1 (en) * | 2018-07-09 | 2024-01-24 | Nokia Technologies Oy | Use of local link to support transmission of spatial audio in a virtual environment |
-
2020
- 2020-07-30 MX MX2022001152A patent/MX2022001152A/es unknown
- 2020-07-30 BR BR112022000230A patent/BR112022000230A2/pt unknown
- 2020-07-30 CA CA3146169A patent/CA3146169A1/en active Pending
- 2020-07-30 AU AU2020320270A patent/AU2020320270A1/en active Pending
- 2020-07-30 US US17/631,613 patent/US20220284910A1/en active Pending
- 2020-07-30 EP EP20757745.3A patent/EP4008000A1/en active Pending
- 2020-07-30 CN CN202080055419.0A patent/CN114175151A/zh active Pending
- 2020-07-30 KR KR1020227006138A patent/KR20220042166A/ko unknown
- 2020-07-30 JP JP2022506569A patent/JP2022543083A/ja active Pending
- 2020-07-30 WO PCT/US2020/044342 patent/WO2021022087A1/en active Application Filing
- 2020-07-31 TW TW109126091A patent/TW202121399A/zh unknown
-
2021
- 2021-12-28 IL IL289449A patent/IL289449A/en unknown
-
2022
- 2022-01-26 CL CL2022000206A patent/CL2022000206A1/es unknown
Also Published As
Publication number | Publication date |
---|---|
CN114175151A (zh) | 2022-03-11 |
CL2022000206A1 (es) | 2022-11-18 |
JP2022543083A (ja) | 2022-10-07 |
AU2020320270A1 (en) | 2022-03-24 |
KR20220042166A (ko) | 2022-04-04 |
CA3146169A1 (en) | 2021-02-04 |
MX2022001152A (es) | 2022-02-22 |
US20220284910A1 (en) | 2022-09-08 |
BR112022000230A2 (pt) | 2022-02-22 |
IL289449A (en) | 2022-02-01 |
WO2021022087A1 (en) | 2021-02-04 |
EP4008000A1 (en) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11463831B2 (en) | Apparatus and method for efficient object metadata coding | |
TW202121399A (zh) | Ivas位元流之編碼及解碼 | |
KR101852951B1 (ko) | 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법 | |
RU2641481C2 (ru) | Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов | |
TWI762008B (zh) | 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體 | |
CA3203960A1 (en) | Immersive voice and audio services (ivas) with adaptive downmix strategies | |
CA3212631A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
TW202410024A (zh) | 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體 | |
US20240105192A1 (en) | Spatial noise filling in multi-channel codec | |
BR122023022314A2 (pt) | Distribuição de taxa de bits em serviços de voz e áudio imersivos | |
BR122023022316A2 (pt) | Distribuição de taxa de bits em serviços de voz e áudio imersivos |