TW202203205A - 針對低延遲音訊編解碼器之參數之量化及熵編碼 - Google Patents
針對低延遲音訊編解碼器之參數之量化及熵編碼 Download PDFInfo
- Publication number
- TW202203205A TW202203205A TW110121106A TW110121106A TW202203205A TW 202203205 A TW202203205 A TW 202203205A TW 110121106 A TW110121106 A TW 110121106A TW 110121106 A TW110121106 A TW 110121106A TW 202203205 A TW202203205 A TW 202203205A
- Authority
- TW
- Taiwan
- Prior art keywords
- parameters
- bit rate
- parameter
- quantized
- quantization
- Prior art date
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 152
- 238000012545 processing Methods 0.000 claims abstract description 111
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000002123 temporal effect Effects 0.000 claims description 35
- 238000011002 quantification Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 11
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 14
- 238000013507 mapping Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000116 mitigating effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000008014 freezing Effects 0.000 description 4
- 238000007710 freezing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001172 regenerating effect Effects 0.000 description 3
- 238000012732 spatial analysis Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052763 palladium Inorganic materials 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101710181853 C-factor Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- LUNBMBVWKORSGN-TYEKWLQESA-N P-factor Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(N)=O)NC(=O)[C@@H]1CCCN1C(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H]1N(C(=O)[C@H](CC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](CC=2C=CC=CC=2)NC(=O)[C@@H](NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC=2C3=CC=CC=C3NC=2)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](CC=2C=CC(O)=CC=2)NC(=O)[C@H](C)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CC=2C=CC=CC=2)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](C)NC(=O)[C@H](CC=2C=CC(O)=CC=2)NC(=O)[C@@H](N)[C@@H](C)O)[C@@H](C)O)C(C)C)CCC1 LUNBMBVWKORSGN-TYEKWLQESA-N 0.000 description 1
- 101800002502 P-factor Proteins 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本發明描述一種用於一輸入信號之逐訊框編碼後設資料之方法,該後設資料包括可自該輸入信號計算之複數個至少部分相關之參數。該方法包括,對於各訊框:藉由使用一迴路程序迭代執行以下步驟:自複數個處理策略判定一處理策略用於計算及量化該等參數;基於該經判定之處理策略計算及量化該等參數以獲得經量化參數;及編碼該等經量化參數。特定言之,該複數個處理策略之各者包括指示與個別參數之該計算及量化相關之一排序之一各自第一指示;及該處理策略基於至少一個位元速率臨限值判定。
Description
本發明係關於針對低延遲音訊編解碼器(編碼器/解碼器)之參數(邊資訊)之熵編碼之一般領域及藉由使用一系列量化及熵編碼技術迭代細化參數位元速率來達成參數位元速率目標之機構。
當一音訊編解碼器(編碼器/解碼器)之訊框週期(訊框大小)接近20毫秒(ms)或更少時,音訊本質以短訊框大小更新。若遵循每訊框更新音訊本質及參數兩者之方法,則各訊框之邊資訊亦將以相同速率嵌入及傳輸。
然而,本領域所周知,邊資訊無需如此頻繁地更新。例如,通常可計算及更新空間參數,例如每40 ms。對於訊框週期為40 ms或更長之編解碼器,此通常意謂參數更新速率與訊框速率一致,且因此可在各訊框中獨立編碼參數。然而,在具有短訊框週期(例如低於40 ms)之編解碼器中,此意謂若參數全部包含在每一訊框中,則其等將實際上被過度採樣。
因此,自廣義上而言,本發明之重點係提出盡可能地最小化邊資訊(或有時亦指稱參數)之機構,亦為音訊本質保持一高訊框更新速率。
鑑於上文,本發明大體上提供一種用於一輸入信號之逐訊框編碼後設資料之方法,以及具有各自獨立技術方案之特徵之一對應程式、電腦可讀儲存媒體及裝置。
根據本發明之一態樣,提供一種用於一輸入信號之逐訊框編碼後設資料之方法。特定言之,可藉由使用一合適編解碼器(編碼器/解碼器)自該輸入(音訊或視訊)信號計算或計算(例如提取)該後設資料。一般而言,該後設資料可用於在該解碼器側重新產生該輸入信號。該後設資料可包括可自該輸入信號計算之複數個至少部分相關參數。即,可根據至少一些其他參數來計算(例如,產生或重新產生)該輸入信號之至少一些參數,使得取決於各種情況,並非所有參數必須總是以簡單方式傳輸。
特定言之,該方法可包括/涉及針對各訊框,藉由一迴路程序迭代執行以下步驟:自複數個處理策略判定一處理策略用於計算及量化該等參數;基於該經判定之處理策略計算及量化該等參數以獲得經量化參數;及編碼該等經量化參數。由於該迴路程序通常針對(除其他外)與該量化相關之處理,所以在一些情況下,該迴路程序亦可指稱一量化迴路(或簡稱為迴路)。依一類似方式,由於該處理策略一般亦針對(除其他外)與該量化相關之處理,所以在一些情況下,該處理策略亦可指稱一量化策略(或,在一些其他情況下,可與一量化方案互換)。此外,應注意,該編碼程序可使用任何合適編碼程序,包含(但不限於)熵編碼(例如,霍夫曼或算術編碼)或沒有熵編碼(例如,base2編碼)。取決於各種實施方案及/或要求,可採用任何其他合適編碼機構。
熟習此項技術者可理解及瞭解,可依任何合適方式提供計算及量化該等參數之該複數個處理策略,諸如預定義或預組態。據此,亦可依任何合適方式自該複數個處理策略判定該處理策略。例如,取決於一 (當前)位元速率要求,可自該複數個處理策略選擇一合適處理策略,使得在基於如此選擇之處理策略執行該計算、量化及編碼(例如,使用或不使用熵編碼)之後之一結果位元速率滿足該(當前)位元速率要求。值得注意的係,由於該位元速率要求可自時間至時間(例如自訊框至訊框)變化,因此如此判定之該處理策略對於各或一些訊框亦可能不同。
特定言之,該複數個處理策略之各者可包括指示與個別參數之該計算及量化相關之一排序(或一序列)的一各自第一指示。即,該第一指示可包括指示計算及量化該等個別參數之時間及順序之序列資訊。作為一實例(但不作為限制),該第一指示可包括指示所有該等參數在其等之任何者經量化之前首先經計算之資訊。
更特定言之,基於至少一個位元速率臨限值判定該處理策略。如熟習此項技術者可理解及瞭解,該(若干)位元速率臨限值可為(例如)預定義或預組態,其取決於各種實施方案及/或要求。
如上文所描述組態,廣義上而言,本發明之所提出之方法可視為引入一迭代及逐步方法之概念來自多個備選方案選擇通常搜尋一「最佳」(或最佳)經量化量化方案之一最佳參數量化方案/策略。然而應注意的係,在當前情況下,術語「最佳」可能並不一定係具有最低(所得)參數位元速率(即,在量化及可行編碼之後)之量化方案,但可見作為可減輕解碼器狀態丟失之方法。如熟習此項技術者可理解,一般而言,解碼器「狀態」係指該解碼器自先前訊框保留之資訊之歷史以便能夠正確地解碼當前訊框。例如(但不限於),在一些情況下,該編碼器側可採用一所謂時間差分編碼。然而,時間差分編碼之使用通常可展現主要在以下事實中之不利之處:通常引入訊框至訊框狀態,其當在傳輸期間該音訊流可能經歷封包丟失時可出現問題。在此情況下,音訊及與該音訊相關之參數兩者可在傳輸期間丟失,使得已用時間差分編碼更新之任何參數可經歷多個隨後訊框之潛在假影。在此意義上,上述緩解狀態丟失係指在可行情況下嘗試避免時間差分編碼,使得該解碼器無需依賴在先前訊框中接收之後設資料來解碼該當前訊框之後設資料。且當需要時間差分編碼時,應依該系統自封包丟失快速恢復之一方式完成。具體而言,藉由謹慎地選擇如本發明中描述之一適當量化方案,可盡可能地限制(減輕)與該封包丟失相關之上述不良行為。換言之,本發明一般提出一編碼(編碼器側)緩解,其涉及用於該量化及(具有或不具有熵)編碼之一迭代選擇程序,其試圖最小化封包丟失假影可(例如)因為所使用之時間差分編碼而引入之程度。
在一些實例中,該處理策略可經判定使得該等經編碼量化參數之一(所得)位元速率等於或小於該(後設資料/參數)位元速率臨限值。因而,在使用該經判定(例如選定)處理策略量化及編碼之後之該所得位元速率在(至少一個)位元速率臨限值內,藉此滿足(例如)事先判定或由一標準化規範預定之該位元速率要求。
在一些實例中,該複數個處理策略之各者可進一步包括指示用於執行該等參數之給量化之資訊之一各自第二指示。
在一些實例中,用於執行該等參數之該量化之該資訊包括該複數個參數之相應量化範圍及/或量化等級。例如,該資訊可關於最大值、最小值、量化等級之數目或該等各自參數之各者(例如,每參數類型之一各自者)所需之任何其他合適值。一般而言,如熟習此項技術者可理解及瞭解,此等量化相關值/參數提供或界定總體上更粗略或更精細之量化,且相應地伴隨更佳或更差空間再現。如熟習此項技術者可理解及瞭解,自廣義上而言,一些(量化)參數通常被認為比其他參數對量化更敏感,且通常可能不存在針對所有參數之一絕對精細/粗略量化方法。
如上文所組態,該複數個處理策略可被視為各者包括關於與計算及量化相關之該排序/序列之一第一(部分/部分)指示;及關於該實際量化程序之一第二(部分/部分)指示。藉由仔細設計該處理策略(例如,第一指示及第二指示之不同組合),可依一高效及靈活方式針對(例如)用於不同用例或情境之各種位元速率組態/要求。具體而言,在一些情況下,可存在一種可被認為保證小於(或等於)該目標位元速率臨限值之處理策略(例如,該複數個量化策略中之最粗略量化策略)。
在一些實例中,該等參數之該編碼可涉及時間及/或頻率差分編碼。廣義上而言,一單一後設資料參數可自一連續數值量化為表示一離散值之一索引。在非差分編碼中,為該後設資料參數編碼之該資訊直接對應於該索引。值得注意的係,本發明中使用之術語「非差分編碼」可適當地指非時間差分編碼、非頻率差分編碼或所有種類之非差分編碼,如熟習此項技術者將理解及瞭解。在時間差分編碼中,經編碼之資訊係來自該當前訊框之後設資料參數之索引與來自該前一訊框之相同後設資料參數之索引之間的差。如熟習此項技術者將理解及瞭解,時間差分編碼之所述一般概念可進一步擴展至(例如)複數個頻帶。據此,該後設資料參數可類似地適當擴展至(例如)分別對應於該複數個頻帶(之各者)之複數個參數。頻率差分編碼遵循一類似原理,但該等編碼差在該當前訊框之一個頻帶之後設資料與該當前訊框之另一頻帶之後設資料之間(與時間差分編碼中之當前訊框減去前一訊框相反)。作為一簡單實例(但不作為限制),假設a0、a1、a2及a3表示一特定訊框之4個頻帶中之參數索引,則在一個實例實施方案中,該等頻率差分索引可為a0、a0-a1、a1-a2、a2-a3。如熟習此項技術者將瞭解,(時間及/或頻率)差分編碼背後之一般思想係後設資料通常可自訊框至訊框,或自頻帶至頻帶緩慢變化,使得即使若該後設資料之原始值很大,則其與前一訊框之後設資料之差,或其與其他頻帶之後設資料之差可能很小。此係有利的,因為通常可使用更少位元編碼具有趨於零之統計分佈之參數。
在一些實例中,針對一當前訊框判定之該處理策略可不同於為一前一訊框判定之處理策略,且據此,該等參數之編碼可涉及跨不同處理策略之時間差分編碼。即,在其中判定不同處理策略之某些情況下(例如,對於該輸入信號之不同訊框),本發明之方法仍能夠編碼該等參數,例如藉由涉及跨彼等不同處理策略之時間差分編碼。
如上文所指示,該複數個處理策略可各包括一各自第一指示,其指示與個別參數之計算及量化相關之一排序(或序列)。
在一些實例中,該第一指示可包括指示所有該等參數在經量化之前經計算之資訊。
在一些實例中,該第一指示可包括指示該等參數經個別計算且接著依序一個接一個量化之資訊。特定言之,可基於該複數個參數之另一量化參數來計算該複數個參數之至少一個參數。作為一實例而非限制,假設總共將計算及量化三個參數,則可首先計算該第一參數(自該輸入信號)且接著經量化;而該第二參數可基於該(經量化)第一參數計算且接著第二參數本身經量化;且最後,基於該(經量化)第一參數及/或該(經量化)第二參數計算該第三參數且接著經量化。在一個實例中,基於該經量化第一參數及該經量化第二參數計算該第三參數。
在一些實例中,該第一指示可包括指示所有該等參數係在量化任何參數之前經計算之資訊;且特定言之,基於另一量化參數重新計算該等參數之至少一者,且量化該經重新計算之參數。仍以上述三個參數之假設為例,首先計算所有參數,且接著量化該第一參數及該第二參數;之後,(例如)基於該等經量化第二參數重新計算該第三參數,且接著基於該經重新計算值量化該第三參數。
在一些實例中,該方法可進一步包括:在編碼該等經量化參數之前,將該等經量化參數之索引自前一訊框映射至當前訊框之索引。換言之,若判定(例如,選擇/選擇)一不同處理策略(量化方案,例如,根據不同量化等級及/或序列),則來自前一訊框之以一不同量化方案量化之(量化)索引映射至當前訊框之索引。值得注意的係,此允許在訊框之間進行時間差分編碼,而不必在每次量化方案改變時必須發送一非差分訊框,藉此進一步改良整體編碼效率及靈活性。
在一些可行實施方案中,索引之映射可基於一公式執行,其中indexcur
係映射之後之當前訊框之索引,indexprev
係前一訊框之索引,quant_lvlcur
係當前訊框之量化等級且quant_lvlprev
係前一訊框之量化等級。
作為一簡單繪示性實例,假設量化範圍為0至2,且假設先前量化等級為11。在均勻量化之情況下,此通常意謂各量化步長為0.2。進一步言之,假設當前量化等級為21,其意謂各量化步長為0.1,具有均勻量化。基於此等假設,若前一訊框中之一量化值為0.4,則在11個均勻量化等級下,將得到以下先前索引indexprev
=2。該映射提供前一訊框之後設資料之量化索引,如同其係使用當前訊框之量化等級來量化般。因此,在此實例中,若當前訊框中之量化等級為21,則量化值0.4將映射至indexcurr
=4。一旦計算映射索引,則計算當前訊框索引與前一訊框索引之間的差,且編碼此差。若需要,相似或類似方法亦可應用於頻率差分編碼,如熟悉此項技術者將理解及瞭解。
應注意,以上公式及各自實例僅用於繪示性目的,可採用任何其他合適機構(例如一查找表等等)來執行索引之映射,如熟悉此項技術者將理解及瞭解。
在一些實例中,該至少一個位元速率臨限值可包括一目標位元速率臨限值。據此,該迴路程序可涉及以下步驟:根據該(經判定)處理策略,用一熵編碼器依一非差分及/或頻率差分方式量化及編碼該等參數;估計(例如計算)該等經編碼參數之一第一參數位元速率;且若該第一參數位元速率小於或等於該目標位元速率臨限值,則退出該迴路程序。特定言之,在一些可行實施方案中,該第一參數位元速率可自用(經訓練)熵編碼器編碼之該非差分及該頻率差分編碼方案之最小值來估計(計算)。如熟習此項技術者將理解及瞭解,可依任何合適方式訓練該熵編碼器,例如,以適應個別編碼方案。例如,在一些可行實施方案中,該等熵編碼器之訓練可涉及基於自大量輸入信號計算之後設資料開發概率模型。為開發此等模型而選擇之該等特定信號期望代表預期在日常使用中通過該系統之該等信號類型。因而,應盡可能高效地編碼來自其他類似信號之後設資料。簡而言之,一般而言,此訓練係關於使該等熵編碼器在該等參數之預期概率分佈下具有最大效率。
在一些實例中,該迴路程序可進一步涉及以下步驟:若該第一參數位元速率大於該目標位元速率臨限值,則根據該處理策略依無熵之一非差分方式量化及編碼該等參數;估計該等經編碼參數之一第二參數位元速率;及若該第二參數位元速率小於或等於該目標位元速率臨限值,則退出該迴路程序。
在一些實例中,該迴路程序可進一步涉及以下步驟:若該第二參數位元速率大於該目標位元速率臨限值,則使用該(經訓練)熵編碼器根據該處理策略依一時間差分方式量化及編碼該等參數;估計該等經編碼參數之一第三參數位元速率;及若該第三參數位元速率小於或等於該目標位元速率臨限值,則退出該迴路程序。
在一些實例中,可相對於一前一訊框依一頻率交織方式對該等參數之一子集執行該時間差分量化及編碼。特定言之,如熟習此項技術者可理解及瞭解,頻率交織方式一般可係指其中對不同訊框處理(例如,量化及編碼)不同頻帶(例如,對應於不同參數子集)之情況。換言之,該當前訊框之該等參數(至少一子集)之該時間差分量化及編碼可在不同於該前一訊框之頻帶之一不同頻帶(對應於當前處理之參數)中執行。
在一些實例中,該時間差分量化及編碼可藉由迴路通過數個頻率交織時間差分編碼方案執行,依此一方式,使得對於各循環,該等參數之一不同子集(對應於一不同子集之頻帶)經量化及時間差分編碼,而該等剩餘參數經非差分量化及編碼。
在一些實例中,該經判定之處理策略可被認為係一第一處理策略,且據此該迴路程序還可進一步涉及以下步驟:若該第三參數位元速率大於該目標位元速率臨限值,則自該複數個處理策略判定一第二處理策略,使得藉由應用該第二處理策略之一(結果)位元速率預期小於使用該第一處理策略之一位元速率;及重複該迴路程序之該等以上步驟。如熟習此項技術者可理解及瞭解,在此等情況下,該等如此判定之(例如選定)第二處理策略可簡單地認為係比該先前判定之(例如選定)第一處理策略更粗略之一處理策略。因而,可行量化值/索引集之大小可減小,藉此(通常)導致位元速率亦相應地減小。
在一些實例中,該等參數可以一第一數目個頻帶表示,且該迴路程序可進一步涉及以下步驟:若該第三參數位元速率大於該目標位元速率臨限值,則將表示該等參數之頻帶數目減少至小於該第一數目之一第二數目,使得待量化及編碼之該等參數之一總數減少;及重複該迴路程序之該等以上步驟。
在一些實例中,該等參數以一第一數目個頻帶表示且該迴路程序可進一步涉及以下步驟:若該第三參數位元速率大於該目標位元速率臨限值:重新使用(或,在一些情況下,指稱「凍結」)來自該當前訊框中前一訊框之一或多個頻帶中之參數;及重複該迴路程序之該等以上步驟。作為一實例,當使用一特定編碼方案編碼時,可凍結某些頻帶(例如,頻帶2、6及10)中之參數。作為一進一步繪示性實例,若在2訊框之一週期內凍結所有頻帶,則該編碼器可發送訊框N中之一半頻帶(例如偶數頻帶)及第N+1訊框中之剩餘一半(例如奇數頻帶)(藉此減少待發送之參數總數),其通常意謂該解碼器將每隔一訊框獲得所有(例如12個)更新頻帶。在此等情況下,若丟失一訊框,則通常可選擇自最後兩個好訊框推斷。當自封包丟失恢復時,可在使用一給定訊框接收之該等頻帶之間內插。一般而言,上述凍結程序之結果係熵減少,其無需改變該解碼器或該熵編碼方案,對品質具有一稍微影響。
總而言之,在減少該頻帶總數時,至少可通過以下兩種方式來完成。該第一方式係降低頻率解析度,其中代替使用N個頻帶,僅使用M個頻帶(其中M<N),且M頻帶組態中一或多個頻帶之帶寬高於N頻帶組態。此等M個頻帶可自N個頻帶導出,例如相鄰頻帶可成對、三個等等組合在一起,或具有感知相關性之任何其他組合。該第二方式係降低時間解析度,其中所有N個頻帶之帶寬可在頻域中保持完全相同,但頻帶在x訊框(其中x>1)之一週期內經凍結。此意謂可在x訊框之一週期內發送對N個頻帶之更新,或換言之,N個頻帶中僅有N/x個頻帶需要更新且隨各訊框發送至該解碼器。
在一些實例中,除上述目標位元速率臨限值之外,至少一個位元速率臨限值可進一步包括大於該目標位元速率臨限值之一最大位元速率臨限值。相應地,該迴路程序可進一步涉及以下步驟:在判定該第二處理策略,或減少該頻帶數目,或重複使用該等參數之前,獲得該第一參數位元速率、該第二參數位元速率及該第三參數位元速率之最小值;及若最小值小於或等於最大位元速率臨限值,則退出該迴路程序。
值得注意的係,若該處理迴路在如上文所繪示之一特定步驟處退出,此將通常意謂最終參數位元速率係在該步驟處(即,當退出該處理迴路時)計算之位元速率。此外,如上文所提及,為了最安全,在可用於量化該等參數之該等給定量化策略中可能存在某種(例如最粗略)量化策略,其保證小於(或等於)該目標位元速率臨限值或最大位元速率臨限值。因而,可確保在該目標位元速率臨限值或最大位元速率臨限值內,總有一個用於擬合參數位元速率之方案。
在一些實例中,該等參數可包括預測參數(有時簡稱為PR參數)、交叉預測參數(有時簡稱為C參數)及去相關參數(有時簡稱為P參數)之一或多者。如上文所指示,至少一些參數至少部分相關,使得其等可基於彼此計算。當然,如熟習此項技術者可理解及瞭解,取決於各種實施方案及/或要求(例如,所使用之特定編解碼器),可存在任何其他合適(類型之)參數。
如上文所指示,該等參數之計算及量化之排序(或順序)可由該等處理策略之該第一指示指示。
在一些實例中,可首先計算及量化該等預測參數,自該等經量化預測參數計算該等交叉預測參數且接著經量化,且首先自該等經量化交叉預測參數及該等經量化預測參數計算該等去相關參數且接著經量化。
在一些實例中,可首先計算該等參數(即該等預測參數、該等交叉預測參數及該等去相關參數),接著量化該等去相關參數及該等預測參數,且自該等經量化預測參數重新計算該等交叉預測參數且接著經量化。
在一些實例中,該方法可應用於一沉浸式語音及音訊服務(IVAS)編解碼器或一立體混響編解碼器之後設資料編碼。該立體混響編解碼器可為一階立體混響 (FOA)編解碼器或甚至更高階立體混響 (HOA)編解碼器。當然,如熟習此項技術者將理解及瞭解,取決於各種實施方案,可對其應用任何其他合適編解碼器。
在一些實例中,該訊框大小小於40 ms,且特定言之,等於或小於20 ms。
根據本發明之另一態樣,提供一種包含一處理器及耦合至該處理器之一記憶體之裝置。該處理器可適於使該裝置執行貫穿本發明描述之實例方法之所有步驟。
根據本發明之一進一步態樣,提供一種電腦程式。該電腦程式可包含指令,該等指令當由一處理器執行時使該處理器執行貫穿本發明描述之實例方法之所有步驟。
根據又一進一步態樣,提供一種電腦可讀儲存媒體。該電腦可讀儲存媒體可儲存上述電腦程式。
應瞭解,裝置特徵及方法步驟可依許多方式互換。特定言之,如熟習此項技術者將瞭解,所揭示之方法之細節可由對應裝置(或系統)實現,且反之亦然。此外,關於方法之上述陳述之任何者被理解為同樣適用於對應裝置(或系統),且反之亦然。
該等圖及下文描述係關於僅藉由圖解說明之較佳實施例。應注意從以下論述,本文所揭示之結構及方法之替代實施例將易於被視為可在不脫離所主張發明之原理之情況下採用之可行替代品。
現將詳細參考若干實施例,附圖中繪示該等實施例之實例。應注意,無論何處,類似或相同元件符號可用在圖中且可指示類似或相同功能。附圖僅為了圖解說明之目的描繪所揭示之系統(或方法)之實施例。熟習技術者將易於自以下描述認識到:可在不背離本文中所描述之原理之情況下採用本文中所繪示之結構及方法之替代實施例。
此外,在圖中,其中連接元件(諸如實線或虛線或箭頭)用於繪示兩個或兩個以上其他示意性元件之間的一連接、關係或關聯,不意謂不存在任何此等連接元件暗示不存在任何連接、關係或關聯。換言之,元件之間的一些連接、關係或關聯並未在附圖中展示,以免混淆本發明。此外,為了便於圖解說明,使用一單一連接元件來表示元件之間的多個連接、關係或關聯。例如,在其中一連接元件表示信號、資料或指令之一通信之情況下,熟習此項技術者應瞭解,此元件表示一或多個信號路徑(根據需要)以影響通信。
如上文所指示,當一音訊編解碼器(編碼器/解碼器)之訊框週期接近40 ms,甚至20 ms或更短時,音訊本質可在短時間間隔內更新。但眾所周知,邊資訊(或後設資料/參數)無需那麼頻繁地更新。換言之,在具有短訊框週期之編解碼器中,其可通常意謂若參數全部包含在每個訊框中(音訊信號亦如此),則其等可能經過度採樣。在一些實施方案中,可能不會每訊框均發送後設資料,且僅在每隔M訊框更新其(例如,在一些情況下最多M=4)。此通常會降低平均後設資料位元速率。
鑑於此,廣義上而言,如本申請案中所描述之技術之應用可應用於參數之時間相關性超過編解碼器之步幅之音訊編碼中之任何參數或邊資訊。例如(但不限於),頻率交織時間差分熵編碼之程序可應用於沉浸式語音及音訊服務(IVAS)編解碼器中之參數,如由模型化空間互動之第三代合作夥伴計劃(3GPP)或試圖將編解碼器步幅最小化至40毫秒以下之任何參數立體聲編碼技術標準化。然而,如熟習此項技術者將理解及瞭解,儘管本發明之實施例可應用於一沉浸式一階立體混響(FOA)編解碼器,但本文中所描述之方法通常適用於任何其他合適音訊編解碼器(例如,高階立體混響、HOA、編解碼器),其中步幅或訊框大小很小,其通常會在如上文所提及依一及時方式編碼邊資訊方面呈現一些特定挑戰。
現參考圖1,展示根據本發明之一實施例之用於編碼及解碼信號(位元流)之一編碼器/解碼器(「編解碼器」) 100之一(簡化)方塊圖之一示意性圖解說明。特定言之,如熟習此項技術者可理解,圖1之繪示性實例展示一空間重新建構器(SPAR)一階立體混響(FOA)編解碼器100用於編碼及解碼FOA格式之IVAS位元流。更具體而言,如圖中所指示,如熟習此項技術者可理解及瞭解,圖1之FOA編解碼器100涉及被動預測及主動預測兩者。
一般而言,對於編碼,一IVAS編碼器可包含接收音訊資料之空間分析及降混單元,包含(但不限於):單聲道信號、立體聲信號、雙耳信號、空間音訊信號(例如,多聲道空間音訊物件)、FOA、高階立體混響(HOA)及任何其他合適音訊資料。在一些實施方案中,空間分析及降混單元可實施用於分析/降混立體聲/FOA音訊信號之複雜高級耦合(CACPL)及/或用於分析/降混FOA音訊信號之SPAR。在其他實施方案中,空間分析及降混單元亦可實施任何其他合適格式。
現返回至圖1,FOA編解碼器100可包含一SPAR FOA編碼器101、一增強型語音服務(EVS)編碼器105、一SPAR FOA解碼器106及一EVS解碼器107。SPAR FOA編碼器101可經組態以將一FOA輸入信號轉換成用於在SPAR FOA解碼器106處重新產生輸入信號之一組降混聲道及參數。取決於各種實施方案,降混信號可自1至4個聲道及參數(或有時亦指稱係數)可包含(但不限於)預測係數(PR)、交叉預測係數(C)及去相關係數(P)。注意,SPAR係用於使用PR、C及P參數自一音訊信號之一降混版本重新建構音訊信號之一程序,如將在下文進一步詳細描述。
取決於降混聲道之數目,FOA輸入之一者可始終保持原樣發送(例如,如圖1之當前實例中所展示之W聲道),且1至3個其他聲道(例如,如圖1之當前實例中所展示之Y、Z及X聲道)可作為殘差發送,或可完全參數化發送。
特定言之,無論降混聲道之數目如何,預測參數均可保持相同,且可用於最小化殘餘降混聲道中之可預測能量。另一方面,交叉預測參數可用於進一步幫助自殘差重新產生完全參數化聲道。因而,在1及4聲道降混情況下無需此等參數,其中在先前情況下沒有殘餘聲道可預測,且在後者中沒有參數化聲道可預測。此外,去相關器參數可用於填充未由預測及交叉預測考慮之剩餘能量。同樣,去相關參數之數目可取決於各頻帶中之降混聲道之數目。
圖1之實例大體上展示此一系統之一繪示性實施例及此等參數如何在解碼器側適應。特定言之,圖1中所展示之實例實施方案描繪一標稱2聲道降混,其中W (W為被動預測或W'為主動預測)聲道未經修改地與一單一預測聲道Y'一起發送至解碼器106。在其中至少一個聲道作為一殘差發送且至少一個聲道經參數發送之情況下,交叉預測係數(C)允許至少一些部分參數聲道自殘差聲道重新建構,即,對於2及3聲道降混。因此,一般而言,對於兩個聲道降混,C參數允許自Y'重新建構X及Z聲道之一些,且藉由W聲道之去相關版本重新建構剩餘聲道,如下文進一步詳細描述。在3聲道降混情況下,殘餘Y'及 X'聲道用於單獨重新建構Z。
值得注意的係,如熟習此項技術者亦將理解及瞭解,在一些例示性實施方案中,W可一主動聲道(或換言之,具有主動預測,在下文中稱為W')。作為一實例(但不作為限制),允許X、Y、Z聲道之某種混合至W聲道中之一主動W聲道可定義如下:(1)
其中f係一合適常數(例如0.5),其允許至少一些X、Y、Z聲道混合至W聲道中;且pry
、prx
及prz
係預測(PR)係數。據此,在被動W之情況下,f=0,因此X、Y、Z聲道不會混合至W聲道中。
在圖1之實例實施方案中,SPAR FOA編碼器101可包含一(被動或主動)預測器單元102、一重新混合單元103及一提取/降混選擇單元104。特定言之,預測器102可以一4聲道B格式(W、Y、Z、X)接收FOA聲道且計算降混聲道(W、Y'、Z'、X'之表示)。
提取/降混選擇單元104可(例如)自IVAS位元流之一後設資料有效負載區段提取SPAR FOA後設資料。預測器單元102及重新混合單元103可接著使用SPAR FOA後設資料來產生經重新混合FOA聲道(W、S1
'、S2
'及S3
'之表示),其可接著經輸入至EVS編碼器105中以編碼成一EVS位元流,其可隨後經囊封於待發送至解碼器106之IVAS位元流中。
參考SPAR FOA解碼器106,EVS位元流由EVS解碼器107解碼,其產生數個(例如,N_dmx=2,其中N_dmx表示降混聲道之數目)降混聲道。在一些實施方案中,SPAR FOA解碼器106可經組態以執行已由SPAR編碼器101執行之操作之一相反。例如,在圖1之實例中,經重新混合FOA聲道(W、S1
'、S2
'及S3
'之表示)可使用SPAR FOA空間後設資料自2個降混聲道恢復。接著可將經重新混合SPAR FOA聲道輸入至逆混頻器111中以恢復SPAR FOA降混聲道(W、Y'、Z' 及 X'之表示)。隨後,經預測SPAR FOA聲道可接著經輸入至逆預測器112中以恢復原始未混合SPAR FOA聲道(W、Y、Z及X)。
注意,在此雙聲道實例中,去相關器區塊109-1(dec1
)及109-2(dec2
)可用於使用一時域或頻域去相關器產生W聲道之去相關版本。降混聲道及去相關聲道可與SPAR FOA後設資料組合使用以參數化地重新建構X及Z聲道。C區塊108可係指殘差聲道乘以2×1 C係數矩陣,藉此產生兩個交叉預測信號,其等可相加至經參數重新建構聲道中,如圖1之實例中所展示。此外,P1
區塊110-1及P2
區塊110-2可係指去相關器輸出乘以2x2 P係數矩陣之行,藉此產生四個輸出,其等可相加至經參數重新建構聲道中,如圖1之實例中所展示。
如上文所提及,在一些實施方案中,取決於降混聲道之數目,FOA輸入之一者可保持原樣地發送至SPAR FOA解碼器106 (例如,例示性W聲道),且其他聲道之一至三個(Y、Z及X)可作為殘差或完全參數化地發送至SPAR FOA解碼器106。無論降混聲道N_dmx之數目如何均保持相同之PR係數可用於最小化殘差降混聲道中之可預測能量。C係數可用於進一步幫助自殘差重新產生完全參數化聲道。因而,在一聲道及四聲道降混之情況下可能無需C係數,其中沒有殘餘聲道或參數化聲道可供預測。P係數用於填充未由PR及C係數考慮之剩餘能量。P係數之數目通常取決於各頻帶中降混聲道之數目N。
在一些實施方案中,SPAR PR係數(僅被動W)計算如下:
步驟1.使用由預測係數組成之一預測矩陣自主W信號預測所有側信號(Y、Z、X),如下:(2)
其中,作為一實例,預測聲道Y'之預測參數可計算為:(3)
其中RAB
=cov(A,B)
係對應於信號A及B之輸入協方差矩陣之元素,且可按頻帶計算。類似地,Z'及X'殘差聲道亦具有對應預測參數,即prz
及prx
。上文矩陣稱為預測矩陣。
重新混音之一種可行實施方案係將輸入信號重新排序為W、Y'、X'及Z',假設來自左右之音訊提示在聲學上比前後更相關或更重要,且在聲學上前後提示比上下提示更相關/更重要。
步驟3.計算4聲道後預測及重新混合降混之協方差為:(5)
其中[預測]及[重新混合]矩陣分別係指方程式(2)及(4)中使用之矩陣。最終後預測及重新混合降混矩陣可寫為(6)
其中d表示殘差聲道(即第2至N_dmx聲道,其中N_dmx表示降混聲道之數目),且u表示需要完全重新產生之參數聲道(即,第(N_dmx+1)至第4聲道)。
計算SPAR FOA後設資料之主要關注點係Rdd
、Rud
及Ruu
量。
因此,C參數對於一3聲道降混通常具有形狀(1×2)且對於一2聲道降混通常具有形狀(2×1)。
步驟5.計算必須由去相關器109-1及109-2重新建構之參數化聲道中之剩餘能量為:(8)(9)(10)
其中0≤α≤1係一常數比例因數。值得注意的係,上混聲道中之殘餘能量Resuu
係實際能量Ruu
(後預測)與重新產生交叉預測能量Reguu
之間之差。
在一些可行實施方案中,可在經歸一化Resuu
矩陣已將其非對角線元素設置為零之後取矩陣平方根。P亦可為一協方差矩陣,且因此可為厄米對稱。因此,僅需要將來自上三角或下三角之參數發送至解碼器106。對角線條目可為實數,而非對角線元素可為複數。在一些進一步可行實施方案中,P係數可進一步分別分離成對角線元素及非對角線元素Pd
及Po
。在一些實施方案中,僅計算P之對角線元素並將其發送至解碼器,且此等可如下計算:
現,在編碼器側,可需要對此等參數進行量化。特定言之,鑑於如上文所指示之三種參數類型(即,PR、C及P)之間的相關性,因此其等計算及量化之排序(或序列)通常被認為對於音訊品質係重要的。根據本發明,達成此目的之方法之三種可行實施例如下:
1.多合一
在本實施例中,一般不允許去相關器補償經量化預測誤差。
更具體而言,在一第一步驟中,參數PR,接著C,且接著P如上文所繪示在沒有量化之情況下經計算。接著,根據一量化策略或方案(例如,基於合適量化範圍及/或量化等級,如熟習此項技術者將理解),參數PR、C及P全部經量化。
2.級聯
一般而言,此特定實施例允許準確預測及交叉預測,且去相關器可填充來自量化之誤差。
更具體而言,在一第一步驟中,參數PR經計算且接著經量化。隨後,自經量化PR參數,參數C經計算,接著經量化。最後,自經量化C參數,參數P亦經計算且接著經量化。
3.部分級聯
一般而言,此特定實施例將最小化P係數,藉此允許準確交叉預測但不允許去相關器補償預測誤差。
更具體而言,在一第一步驟中,如在上文多合一實施例中在沒有量化之情況下計算參數PR、C及P,接著P參數經量化。隨後,PR參數亦經量化。且最後,自經量化PR參數,C參數經重新計算且接著經量化。
在上文所繪示之實施例之各者中,可總是用經量化預測係數來計算降混(包含殘差)。
如熟習此項技術者可理解及瞭解,量化程序本身可由一合適(量化)範圍來定義。例如,可為一些參數(例如,參數PR、C及P之非對角線元素)定義一範圍[-a,a],而可為其他參數定義另一範圍[0,a]。此外,亦可定義數個量化等級,該等等級應在此等端點之間均勻分佈。即,可根據參數類型(例如,PR、C、Pd
、Po
)組態或定義各種限制及步長。此外,在一些實施方案中,若參數係複數值,則可根據參數分佈以相同/不同範圍及步數來量化實部及虛部。
在一些可行實施方案中,如熟習此項技術者將瞭解,可需要為量化等級(即qlvl)選擇奇數值以確保一量化點在0處可用,例如用於雙面參數。
可能值得注意的係,如上文已指出,圖1之實例通常展示被動預測(即W聲道)之一實施方案。然而,如熟習此項技術者將理解及瞭解,在一些其他可行實施方案中,可應用一主動預測。一般而言,一主動W聲道可允許將X、Y、Z聲道之至少一些混合至W聲道中,且此主動預測通常可在1聲道降混之情況下使用。據此,在被動預測情況下,通常不會將X、Y、Z聲道混合至W聲道中。
圖2係繪示根據本發明之一實施例之用於一輸入信號之逐訊框編碼後設資料之一方法200之一實例的一流程圖。如本文中所描述之方法200可(例如)應用於如圖1中所展示之編解碼器100 (或任何其他合適編解碼器)。可藉由使用一合適編解碼器(編碼器/解碼器)自輸入(音訊或視訊)信號計算/計算(例如提取)後設資料。一般而言,後設資料可用於協助在解碼器側重新產生輸入信號。後設資料可包括可自輸入信號計算之複數個至少部分相關參數。即,可取決於至少一些其他參數來計算(例如,產生或重新產生)輸入信號之至少一些參數,使得取決於各種情況,並非所有參數均總是以簡單方式傳輸。
方法200可經迭代地執行,例如,藉由對輸入信號之各訊框使用一迴路程序(其將在下文詳細描述)。特定言之,方法200 (或更準確而言,迴路程序)以藉由自用於計算及量化參數之複數個處理策略判定一處理策略之步驟S210開始。
一旦在步驟S210中判定(例如選擇)處理策略,迴路程序進行至基於所判定之處理策略計算及量化參數以獲得經量化參數之步驟S220。
隨後在步驟S230中,相應地編碼(經量化)參數,且接著在步驟S240中自經編碼參數估計(例如計算)一(所得)位元速率且基於經估計位元速率連同至少一個目標位元速率臨限值做出一決定(例如,預定義或預組態)。
若滿足位元速率臨限值,例如,經估計位元速率等於或小於位元速率臨限值,則方法200退出處理迴路。否則,迴路返回至步驟S210且繼續步驟S210至S240。特定言之,當重新進入迴路時,可判定一新處理策略以便滿足位元速率臨限值目標。
如熟習此項技術者可理解及瞭解,可依任何合適方式提供用於計算及量化參數之複數個處理策略,諸如預定義或預組態。據此,亦可依任何合適方式自複數個處理策略判定處理策略。例如,取決於一(當前)位元速率要求,可自複數個處理策略選擇一合適處理策略,使得在基於如此選擇之處理策略而執行計算、量化及編碼(例如,使用或不使用熵編碼)之後之一所得位元速率滿足(當前)位元速率要求。
由於迴路程序通常針對(除其他外)與量化相關之處理,在一些情況下,迴路程序亦可指稱一量化迴路(或簡稱為迴路)。依一類似方式,由於處理策略通常亦針對(除其他外)與量化相關之處理,在一些情況下,處理策略亦可指稱一量化策略(或,在一些其他情況下,可互換地稱為一量化方案)。此外,應注意,編碼程序可使用任何合適編碼程序,包含(但不限於)熵編碼或無熵編碼(例如,base2編碼)。當然,取決於各種實施方案及/或要求,可採用任何其他合適編碼機構。
具體而言,複數個處理策略之各者可包括指示與個別參數之計算及量化相關之一排序(或序列)之一各自第一指示。即,第一指示可包括指示計算及量化個別參數之時間及順序之序列資訊。作為一實例(但不作為限制),第一指示可包括指示所有參數在其等之任何者經量化之前首先經計算之資訊。
現將參考如圖3及圖4中所展示之實例更詳細地描述迴路程序。
如上文所指示,在具有短步幅或訊框更新之編解碼器中,若參數全部包含在每一訊框中,則參數可能經過度採樣。因此,本發明之主要焦點係提出盡可能最小化邊資訊之機構,但仍為音訊本質及參數保留一短訊框更新率。
為解決上述問題,特別係為了評估邊資訊之擴展,廣義上而言,本發明之發明人一般提出一種併入一些(頻率)頻帶參數之時間差分估計連同其他(頻率)頻帶參數之非差分估計之一機構。所提出之方法交織哪些頻帶係時間差分編碼及非差分編碼,使得每一頻帶通過一非差分計算定期刷新,而無需一完整參數更新。核心概念係隨著訊框大小之減小,參數之訊框至訊框相關性增加且因此可藉由時間差分地編碼參數來增加編碼增益。
除時間差分編碼之頻率交織之外,其亦引入一迭代及逐步方法之概念以選擇一最佳參數量化方案,其自多個備選方案搜尋一「最好」(或最佳)量化方案。在此情況下,術語「最好」或「最佳」可能並不一定係具有最低參數位元速率之量化方案,而係一種減輕解碼器狀態之量化方案。
例如,時間差分編碼之使用通常可具有之不利之處主要在於引入訊框至訊框狀態,其當在傳輸期間音訊流可經歷封包丟失時,可呈現問題。在此情況下,音訊及參數兩者可丟失且正在使用時間差分編碼更新之任何參數可經歷多個隨後訊框之潛在假影。在本發明中,通常不解決該問題之解碼器緩解。相反,該問題通常藉由選擇一適當量化方案來解決(減輕),該方案將盡可能地限制此行為。廣義上而言,編碼(編碼器側)緩解通常涉及量化及熵編碼之一迭代選擇程序,其試圖最小化歸因於使用時間差分編碼而可能引入之由封包丟失引起之假影之程度。
現返回至附圖,圖3係示意性地繪示根據本發明之一實施例之一處理迴路300之一實例之一流程圖。
處理迴路300開始於步驟S310,其中計算(或估計)一第一位元速率(以下稱為b1)。在一些可行實施方案中,對於每一訊框,估計非差分及/或頻率差分量化參數之熵。在一些其他可行實施方案中,第一位元速率b1可經計算為用(經訓練)熵編碼器(例如,霍夫曼或算術編碼)編碼之非差分及頻率差分編碼方案之最小值。
在步驟S320中,將第一位元速率b1與一目標位元速率(以下簡稱t)進行比較。若參數位元速率估計b1在(等於或小於)目標位元速率t內,則處理迴路退出。因此,編碼參數,使得將任何額外可用位元供應給音訊編碼器以提高音訊本質之位元速率。
若步驟S320失敗(即經估計位元速率b1大於目標位元速率t),則在步驟S330中計算經量化參數之一第二位元速率(以下稱為b2)。在一些可行實施方案中,可在沒有熵編碼之情況下(例如,藉由使用base2編碼)依一非差分方式計算第二位元速率b2。
接著在步驟S340中,將第二位元速率b2與目標位元速率t進行比較。若第二位元速率b2在(等於或小於)目標位元速率t內,則處理迴路退出。
否則,在步驟S350中計算參數之一第三位元速率(以下稱為b3)。在一些可行實施方案中,第三位元速率b3可藉由使用(經訓練)熵編碼器之時間差分編碼計算。在一些進一步可行實施方案中,可量化當前訊框中之參數值之一子集且接著自前一訊框中之經量化參數值減去,且可計算差分量化參數值及熵。
在步驟S360中,若所計算之位元速率b3等於或低於臨限值t,則處理迴路退出,且以所供應之位元速率編碼參數且供應額外位元以編碼音訊。
否則,可在步驟S370中實施各種措施以最終滿足目標位元速率臨限值t。
例如,在一些可行實施方案中,可自複數個處理策略選擇一第二、更粗略處理策略(量化策略)。在此等情況下,如熟習此項技術者將理解及瞭解,量化程序可包含若干等級之逐漸粗化之量化,諸如(例如)精細、中等、粗略及超粗略量化策略。接著,在判定(例如選擇)較粗略量化策略之後,處理迴路重複S310至S360之步驟。
在一些其他可行實施方案中,可在S370中執行減少頻帶數目之一步驟。接著,可用經減少頻帶組態重複上述步驟(即,步驟S310至S360)。此通常會減少待量化之參數總數且通常會導致(至少)一些訊框之一低位元速率。
替代地或另外,在另一些實施方案中,亦可執行凍結(即重新使用)來自前一訊框之一頻帶中之參數之一步驟。此將基本上阻止一參數隨時間變化,藉此導致時間差分熵編碼之熵減少。例如,如表2中所顯示(其將在下文詳細描述),當使用編碼方案4a編碼時,則可凍結頻帶2、6及10中之參數。此通常會導致熵減少,沒有變化解碼器或熵編碼方案,以及對品質之一輕微影響。應注意,2、6及10之以上實例僅係一繪示性實例,且如熟習此項技術者將理解及瞭解,可具有可跨多個訊框凍結之許多頻帶組態。例如,若在2訊框之一週期內凍結所有頻帶,則編碼器可在第N訊框中發送一半頻帶且在第N+1訊框中發送剩餘一半(藉此減少待發送之參數總數),其通常意謂解碼器將每隔一訊框獲得所有(例如12個)更新頻帶。在此等情況下,若丟失一訊框,通常可選擇自最後兩個好訊框推斷。當自封包丟失恢復時,可在使用一給定訊框接收之頻帶之間內插。
值得注意的係,若迴路在步驟x退出,則最終參數位元速率係在該步驟x處計算之位元速率。
此外,在一些實施方案中,可能(或甚至期望)考慮使用最粗略量化策略(在可用於量化參數之給定複數個量化策略中)設計位元速率b3保證小於目標位元速率臨限值t。在此等情況下,可保證始終存在用於在目標位元速率t內擬合參數位元速率之一解決方案。
圖4係示意性地繪示根據本發明之另一實施例之一處理迴路400之一實例之一流程圖。特定言之,圖4之迴路400中相同或類似元件符號通常表示如圖3中所展示之迴路300中相同或類似元件,使得為了簡潔起見可省略其重複描述。
特定言之,圖4之處理迴路可特別適用於使用兩個位元速率臨限值(表示為一目標位元速率臨限值t1及一最大位元速率臨限值t2)之情況,而非如圖3中所展示之單一目標位元速率臨限值情境。廣義上而言,目標位元速率臨限值t或t1可被認為係很好達成之一目標或標的,而最大位元速率臨限值t2可簡單地視為不應超過之「硬」臨限值。
更特定言之,步驟S410至S470與圖3中之彼等步驟(即步驟S310至S370)相同,使得為了簡潔起見,可省略其重複描述。
然而,若不滿足S460之條件,則代替直接切換至步驟S470,而係藉由將一第四位元速率(b4)計算為位元速率b1、b2及b3之最小值來插入額外步驟S461。接著在步驟S462中將第四位元速率b4與最大位元速率臨限值t2進行比較。
若第四位元速率b4等於或小於最大位元速率臨限值t2,則處理迴路400退出;否則,處理迴路400繼續進行步驟S470 (其與圖4中之步驟S370基本相同)並重複S410至S462之步驟。
與圖3類似,若迴路在步驟x處退出,則最終參數位元速率係在該步驟x處計算之位元速率。
此外,在一些實施方案中,亦可能(或甚至希望)考慮使用最粗略量化策略(在可用於量化參數之給定複數個量化策略中)設計位元速率b3以保證小於最大位元速率臨限值t2。在此等情況下,可保證始終存在用於在最大位元速率t2內擬合參數位元速率之一解決方案。
總而言之,圖3之步驟S310、S330及S350以及相應圖4之步驟S410、S430及S450通常對音訊品質沒有影響。然而,圖4之步驟S461將藉由對音訊位元速率及參數位元速率兩者產生一影響而降低品質。此外,上述在圖3之步驟S370及圖4之S470中所提及之可行技術之任何者(例如,移動至更粗略量化、藉由降低頻率解析度來減少頻帶、藉由減少時間解析度來減少頻帶等等)將基本上係對品質產生一負面影響。因此,圖3及圖4之實例中之步驟依此一方式排序以最小化品質下降或解決其他領域之限制。廣義而言,如本發明中所描述之方法趨於選擇上述技術之一或多者以保持後設資料位元速率降低與感知品質之間的平衡。
亦有對上述步驟之特定排序及可行兩個目標參數位元速率(即 t1及t2)之原因之額外考量。
特定言之,若滿足約束,則逐步排序允許吾人終止該程序。當計算連續進行時,此通常會減少計算負載,因為通常不會進行所有可用步驟。
此外,排序亦允許對備選方案之一隱式偏好。例如,將非差分熵編碼排序為第一步驟將通常意謂若該替代方案滿足約束,則此替代方案係較佳的。此係一編碼器緩解措施以在封包丟失之條件期間最小化狀態以提高品質。
此外,使用兩個目標(t1及t2)之概率通常會允許更大控制音訊位元速率及參數位元速率之間進行權衡之能力。
現,將更詳細地描述達成時間差分編碼之交織之描述。
管理時間差分熵編碼之交織之一些可行實施方案如表2中所顯示。
表2.交織時間差分編碼方案
編碼方案 | 時間差分編碼,頻帶1至12 |
基 | 0 0 0 0 0 0 0 0 0 0 0 0 |
4a | 0 1 1 1 0 1 1 1 0 1 1 1 |
4b | 1 0 1 1 1 0 1 1 1 0 1 1 |
4c | 1 1 0 1 1 1 0 1 1 1 0 1 |
4d | 1 1 1 0 1 1 1 0 1 1 1 0 |
在此具體實例中,一般為後設資料位元流編碼提出5個組態,其等之各者由12個(頻帶)組成。更特定言之,由0指定之頻帶經非差分編碼且由1指定之頻帶經時間差分編碼(即,量化參數且自前一訊框中之經量化參數減去)。
如實例中所描述,首先藉由非差分編碼(即基)量化參數來評估各訊框之參數位元速率(例如參閱步驟S410或S510)。接著,在步驟S450或S550處,基於前一訊框之編碼方案選擇時間差分編碼方案(若需要)。
自前一訊框之編碼方案至當前訊框之時間差分編碼方案之一映射實例如下表3中所展示:
表3.時間差分編碼方案之映射
前一幀之編碼 方案 | 當前幀之時間差分編碼 方案 |
基 | 4a |
4a | 4b |
4b | 4c |
4c | 4d |
4d | 4a |
值得注意的係,在本實例中,表3中使用之術語「基」一般係指非差分編碼方案。因此,如自表3可見,時間差分編碼總是自4a至4d (且接著返回)循環。可繼續迴路而無需實施非差分編碼。且在此特定實例中,編解碼器之最大記憶體或「狀態」係當前訊框及過去之三個訊框(即總共四訊框)。當然,如熟習此項技術者將理解及瞭解,5個組態及12個(頻率)頻帶等等之數目僅作為實例用於繪示目的,可使用任何其他合適數目,其取決於各種實施方案及/或要求。相似或類似論據適用於如表3中所展示之編碼方案之間的切換,其同樣可採用任何合適技術。
值得注意的係,若選擇一不同量化方案,則可首先將來自以一不同量化方案量化之前一訊框之索引映射至當前訊框之索引。一般而言,可需要映射步驟以允許參數之時間差分編碼,例如,當量化等級之數目自一訊框改變至下一訊框時藉此允許訊框之間的時間差分編碼而不必訴諸每次改變量化方案時必須發送一非差分訊框。
作為一可行實例,索引之映射可基於以下公式執行:(13)
其中indexcur
表示映射之後當前訊框之索引,indexprev
表示前一訊框之索引,quant_lvlcur
表示當前訊框之量化等級且quant_lvlprev
表示前一訊框之量化等級。
作為一簡單繪示性實例,假設量化範圍為0至2,且假設先前量化等級為11。在均勻量化之情況下,此通常意謂各量化步長將為0.2。進一步言之,假設當前量化等級為21,其意謂各量化步長為0.1,具有均勻量化。基於此等假設,若前一訊框之一量化值為0.4,則在11個均勻量化等級下,將得到以下先前索引indexprev
=2。該映射提供前一訊框之後設資料之量化索引,如同其使用當前訊框之量化等級進行量化般。因此,在此實例中,若當前訊框中之量化等級為21,則量化值0.4將映射至indexcurr
=4。一旦計算映射索引,則計算當前訊框索引與前一訊框索引之間的差,且編碼此差。若需要,相似或類似方法於可應用於頻率差分編碼,如熟習此項技術者將理解及瞭解。
當然,取決於各種實施方案及/或要求,可採用任何其他合適映射方案(例如,藉由使用一查找表或類似者)。
此外,如上文所指示,一單一後設資料參數可自一連續數值量化為表示一離散值之一索引。在非差分編碼中,為該後設資料參數編碼之資訊直接對應於該索引。在時間差分編碼中,經編碼之資訊係來自當前訊框之後設資料參數之索引與來自前一訊框之相同後設資料參數之索引之間的差。如熟習此項技術者將理解及瞭解,時間差分編碼之上文所繪示之一般概念可進一步擴展至(例如)複數個頻帶。據此,後設資料參數可類似地適當地擴展至(例如)分別對應於複數個頻帶之複數個參數。頻率差分編碼遵循一類似原理,但經編碼區別在於當前訊框之一個頻帶之後設資料與當前訊框之另一頻帶之後設資料(與時間差分編碼中之當前訊框減去前一訊框相反)。作為一簡單實例(但不作為限制),假設a0、a1、a2及a3表示一特定訊框之4個頻帶中之參數索引,則在一個實例實施方案中,頻率差分索引可為a0、a0-a1、a1-a2、a2-a3。如熟習此項技術者將理解,(時間及/或頻率)差分編碼背後之一般思想係後設資料通常可自訊框至訊框,或自頻帶至頻帶緩慢變化,使得即使若後設資料之原始值較大,則其與前一訊框之後設資料之間的差,或其與其他頻帶之後設資料之間的差將可能較小。此係有利的,因為通常可使用更少位元編碼具有趨於零之統計分佈之參數。因此,即使一些實例實施方案可簡要地或僅參考時間差分編碼,熟習此項技術者將瞭解,頻率差分編碼亦可應用於其(可具有較小適當調整)。
本發明之一些進一步可行實例可涉及處理以子頻帶表示之一輸入音訊信號以產生一降混信號之一程序,且相關聯後設資料可由一或多個處理器執行。該程序可包含,對於各子頻帶,判定一降混矩陣及相關聯後設資料;及根據該降混矩陣重新混合該等子頻帶之各者以產生該降混信號。在一給定目標及/或最大後設資料位元速率限制之情況下,可使用一或多種量化策略及一或多種編碼策略來編碼後設資料。
在一些實施方案中,該程序可包含所有子頻帶之非差分熵編碼。該程序可進一步包含所有子頻帶之頻率差分熵編碼。該程序可進一步包含將頻率交織與對應於選定子頻帶之經量化參數之時間差分編碼組合用於一低延遲音訊編解碼器,如上文詳細描述。
該程序可進一步包含子頻帶後設資料之非熵編碼。迭代步驟以找到一合適編碼策略以滿足位元速率及音訊品質要求,並減少解碼器狀態。該程序可進一步包含藉由減少將在其中編碼空間後設資料之子頻帶之數目(例如12個頻帶至6個頻帶)來降低頻率解析度。該程序可包含藉由時間固定(或凍結)一或多個子頻帶後設資料來降低時間解析度,使得一子頻帶之後設資料無需發送。該程序可包含使用多個量化策略,其中各策略係各種空間後設資料參數之量化等級之一組合,該程序可進一步包含在此等量化策略之間選擇以確保滿足位元速率目標。該程序可包含迭代步驟以找到一合適量化方案以滿足位元速率及音訊品質要求。迭代方法聚焦於以所需量化方案、最小計算複雜度及減少解碼器狀態得到所需後設資料位元速率。若所需量化等級不適合所需位元速率範圍,則藉由確保對音訊品質之影響最小,回退至一(例如更粗略)量化方案。
在一些實施方案中,來自經量化至與當前訊框之數目不同之一數目之先前訊框之索引之一映射允許訊框之間的時間差分編碼,而不必在每次需要一不同量化等級時訴諸於發送一非差分訊框。
在各種實施方案中,量化(將連續值轉換成用於編碼之離散索引)可包含根據當前需要藉由操縱連續後設資料係數之計算及量化之順序來判定係數之最佳值。
實施上述技術之一計算裝置可具有以下實例架構。其他架構係可行的,包含具有更多或更少組件之架構。在一些實施方案中,實例架構包含一或多個處理器(例如,雙核英特爾®至強®處理器)、一或多個輸出裝置(例如LCD)、一或多個網路介面、一或多個輸入裝置(例如,滑鼠、鍵盤、觸敏顯示器)及一或多個電腦可讀媒體(例如,RAM、ROM、SDRAM、硬碟、光碟、快閃記憶體等等)。此等組件可通過一或多個通信通道(例如匯流排)交換通信及資料,其可利用各種硬體及軟體來促進組件之間的資料及控制信號之傳輸。
術語「電腦可讀媒體」係指參與向處理器提供指令用於執行之一媒體,包含(但不限於)非揮發性媒體(例如,光碟或磁碟)、揮發性媒體(例如記憶體)及傳輸媒體。傳輸媒體包含(但不限於)同軸電纜、銅線及光纖。
電腦可讀媒體可進一步包含操作系統(例如,一Linux®操作系統)、網路通信模組、音訊介面管理器、音訊處理管理器及直播內容分發器。操作系統可為多使用者、多處理、多任務、多執行緒、即時等等。操作系統執行基本任務,包含(但不限於):識別來自網路介面706及/或裝置708之輸入並向其提供輸出;追蹤及管理電腦可讀媒體(例如,記憶體或一儲存裝置)上之檔案及目錄;控制周邊裝置;及管理一或多個通信通道上之流量。網路通信模組包含用於建立及維護網路連接之各種組件(例如,用於實施通信協定之軟體,諸如TCP/IP、HTTP等等)。
架構可在一並行處理或對等基礎設施中或在具有一或多個處理器之一單一裝置中實施。軟體可包含多個軟體組件或可為一單一代碼體。
所描述特徵可有利地在可在一可程式化系統上執行之一或多個電腦程式中實施,該可程式化系統包含經耦合以自一資料儲存系統、至少一個輸入裝置及至少一個輸出裝置接收資料及指令並將資料及指令傳輸至一資料儲存系統、至少一個輸入裝置及至少一個輸出裝置的至少一個可程式化處理器。一電腦程式係一組指令,其可直接或間接地在一電腦中使用以執行某種活動或產生某種結果。一電腦程式可用任何形式之程式化語言(例如,Objective-C、Java)編寫,包含編譯或解釋語言,且其可以任何形式部署,包含作為一獨立程式或作為一模組、組件、子常式、一基於瀏覽器之web應用程式或適合在一計算環境中使用之其他單元。
用於執行一指令程式之合適處理器包含(藉由實例)通用及專用微處理器兩者,以及任何類型之電腦之唯一處理器或多個處理器或核心之一者。通常,一般而言,一處理器將自一唯讀記憶體或一隨機存取記憶體或兩者接收指令及資料。一電腦之必要元件係用於執行指令之一處理器及用於儲存指令及資料之一或多個記憶體。一般而言,一電腦亦將包含用於儲存資料檔案之一或多個大容量儲存裝置,或可操作地耦合以與一或多個大容量儲存裝置通信;此等裝置包含磁碟,諸如內部硬碟及可移除磁碟;磁光碟;及光碟。適於有形地體現電腦程式指令及資料之儲存裝置包含所有形式之非揮發性記憶體,包含(藉由實例)半導體記憶體裝置(諸如,EPROM、EEPROM)及快閃記憶體裝置;磁碟,諸如內部硬碟或可移除磁碟;磁光碟;及CD-ROM及DVD-ROM磁碟。處理器及記憶體可由ASIC (專用積體電路)補充或併入其中。
為了提供與一使用者互動,該等特徵可在具有一顯示裝置(諸如一CRT (陰極射線管)或LCD (液晶顯示器)監視器或一視網膜顯示裝置)之一電腦上實施用於向使用者顯示資訊。電腦可具有使用者可藉由其等向電腦提供輸入之一觸控表面輸入裝置(例如一觸控螢幕)或一鍵盤及一指點裝置(諸如一滑鼠或一軌跡球)。電腦可具有用於接收來自使用者之語音命令之一語音輸入裝置。
該等特徵可在包含一後端組件(諸如一資料伺服器)或包含一中間體組件(諸如一應用伺服器或一網際網路伺服器)或包含一前端組件(諸如具有一圖形使用者介面或一網際網路瀏覽器之一客戶電腦)或其等之任何組合之一電腦系統中實施。系統之組件可藉由任何形式或媒體之數位資料通信(諸如一通信網路)連接。通信網路之實例包含(例如)一LAN、WAN及形成網際網路之電腦及網路。
計算系統可包含客戶端及伺服器。一客戶端及伺服器通常彼此遠離且通常通過一通信網路互動。客戶端與伺服器之關係係由於在各自電腦上運行之電腦程式產生且彼此之間具有一客戶端-伺服器關係。在一些實施例中,一伺服器將資料(例如一HTML頁面)傳輸至一客戶端裝置(例如,為了向與客戶端裝置互動之一使用者顯示資料及接收來自與客戶端裝置互動之一使用者之使用者輸入之目的)。可在伺服器處自客戶端裝置接收在客戶端裝置處產生之資料(例如,使用者互動之一結果)。
一或多個電腦之一系統可經組態以藉由在系統上安裝軟體、韌體、硬體或其等之一組合來執行特定動作,該等軟體、韌體、硬體或其等之一組合在操作中導致或導致系統執行動作。一或多個電腦程式可經組態以藉由包含在由資料處理裝置執行時使裝置執行動作之指令來執行特定動作。
雖然本說明書含有諸多特定實施方案細節,但不應將此等細節理解為對任何發明或可主張之內容之範疇之限制而應理解為特定發明之特定實施例所特有之特性之說明。亦可在一單一實施例中組合實施在本說明書中在單獨實施例之上下文中所描述之特定特徵。相反地,亦可在多項實施例中單獨地實施或以任何適合子組合實施在一單一實施例之上下文中所描述之各種特徵。此外,雖然在上文可將特徵描述為作用於特定組合中且甚至最初如此要求,但是來自一經要求之組合之一或多個特徵可在一些情況中自該組合刪去且該經要求之組合可指向一子組合或一子組合之變動。
類似地,雖然在圖式中依一特定順序描繪操作,但此不應理解為要求依所展示之特定順序或循序順序執行此等操作,或執行全部經圖解說明之操作以達成所要結果。在某些情況中,多任務處理及並行處理可為有利的。此外,不應將上文所描述之實施例中之各種系統組件之分離理解為在所有實施例中需要此分離,且應將此理解為通常可將所描述之程式組件及系統一起整合於一單一軟體產品中或封裝至多個軟體產品中。
除非依其他方式明確陳述(如自以下論述明白),否則應瞭解,在整個說明書中利用術語(諸如,「處理」、「計算(computing)」、「計算(calculating)」、「判定」或「分析」或其類似)之論述指代一電腦或計算系統或類似電子計算裝置(其操縱及/或將表示為物理(諸如電子)量之資料變換成類似地表示為物理量之其他資料)之動作及/或程序。
在整個說明書中對「一個實例實施例」、「一些實例實施例」或「一實例實施例」之引用意謂組合實例實施例描述之一特定特徵、結構或特性包含在本發明之至少一個實例實施例中。因此,在本發明各處出現之片語「在一個實例實施例中」、「在一些實例實施例中」或「在一實例實施例中」並不一定全部指代相同實例實施例。此外,如來自本發明之此項技術之一般技術者在一或多個實例實施例中將明白,可依任何合適方式組合特定特徵、結構或特性。
如本文中所使用,除非另有說明,否則使用序數形容詞「第一」、「第二」、「第三」等等來描述一共同物件僅指示所指的係類似物件之不同例項,並非有意暗示如此描述之物件必須在時間上、空間上、分級上或依任何其他方式處於一給定序列中。
在以下申請專利範圍及本文之描述中,包括、由……組成或由其包括之術語之任何者係一開放術語,其意謂至少包括以下元件/特徵,但不排除其他元件/特徵。因此,當在申請專利範圍中使用時,術語包括不應被解釋為限制於其後列出之方式或元件或步驟。例如,包括A及B之一裝置之表述範疇不應限於僅由元件A及B組成之裝置。如本文中所使用之術語包含或包含或包含在內之任何者亦係一開放術語,其亦意謂至少包含該術語之後之元件/特徵,但不排除其他元件/特徵。因此,包含與包括係同義詞且意謂包括。
應瞭解,在本發明之實例實施例之以上描述中,為了簡化本發明並幫助理解各種發明態樣之一或多者之目的,本發明之各種特徵有時經組合在一單一實例實施例、圖或其描述中。然而,本發明之方法不應被解譯為反映以下意圖:本發明需要比各請求項中明確敘述之特徵多之特徵。而是,如以下申請專利範圍反映,發明態樣在於少於一單一前述所揭示實施例之全部特徵。因此,繼實施方式後之申請專利範圍明確併入此實施方式中,其中各請求項獨立作為本發明之一單獨實例實施例。
此外,雖然本文中所描述之一些實例實施例包含一些但並非包含於其他實例實施例中之其他特徵,但不同實例實施例之特徵之組合意謂在本發明之範疇內且形成不同實例實施例,如熟習此項技術者將理解。例如,在以下申請專利範圍中,可以任何組合使用所主張實例實施例之任何者。
在本文中所提供之描述中,闡述許多特定細節。然而,應理解,可在沒有此等特定細節之情況下實踐本發明之實例實施例。在其他例項中,並未詳細展示眾所周知的方法、結構及技術以不模糊對此描述之一理解。
因此,雖然已描述被認為係本發明之最佳模式,但熟習此項技術者將認識到在不脫離本發明之精神之情況下可對其進行其他及進一步修改,且意欲主張所有此等變化及修改落於本發明之範疇內。例如,上文給出之任何公式僅係可使用之程序之代表。可自方塊圖添加或刪除功能且可在功能塊之間互換操作。可添加步驟至本發明之範疇內描述之方法或自其刪除。
本發明之各種態樣及實施方案亦可自以下列舉之實例實施例(EEE)瞭解,該等實例實施例並非係申請專利範圍。
EEE 1.一種處理以子頻帶表示以產生一降混信號及相關聯後設資料之一輸入音訊信號之方法,該方法包含:
對於各子頻帶,判定一降混矩陣及相關聯後設資料;及;
根據該降混矩陣重新混合該等子頻帶之各者以產生該降混信號。
EEE 2.如EEE 1之方法,其中在給定一目標及/或最大後設資料位元速率限制之情況下,使用一或多個量化策略及一或多個編碼策略編碼該後設資料。
EEE 3.如EEE 2之方法,其包括所有子頻帶之非時間差分熵編碼。
EEE 4.如EEE 3之方法,其包括將頻率交織與對應於選定子頻帶之經量化參數之時間差分編碼組合用於一低延遲音訊編解碼器。
EEE5.如EEE 4之方法,其包括子頻帶後設資料之非熵編碼。
EEE 6.如EEE 5之方法,其中迭代步驟3)至5)以找到一合適編碼策略以滿足位元速率及音訊品質要求,並減少解碼器狀態。
EEE 7.如EEE 6之方法,其包括減少由子頻帶中後設資料之組合發送之頻帶之數目。
EEE 8.如EEE 7之方法,其包括:時間固定一或多個子頻帶後設資料,使得一子頻帶之後設資料無需發送。
EEE 9.如EEE 8之方法,其包括: 對該給定後設資料使用多個量化等級以確保滿足該等位元速率目標。
EEE 10.如EEE 9之方法,其中迭代EEE 3至EEE 9之步驟以找到一合適量化方案以滿足位元速率及音訊品質要求。
EEE 11.如EEE 3或EEE 9之方法,其中將來自經量化為與該當前訊框之數目不同之一數目級之先前訊框之索引之一映射允許訊框之間的時間差分編碼而不訴諸於在每次需要一不同量化等級時必須發送一非時間差分訊框。
EEE 12.如上述EEE中任一EEE之方法,其中該量化包含根據當前需要藉由操縱連續後設資料係數之計算及量化之順序來判定係數之最佳值。
EEE 13.一種系統,其包括:
一或多個處理器;及
一種儲存指令之非暫時性電腦可讀媒體,該等指令當由該一或多個處理器執行時使該一或多個處理器執行EEE 1至12中任一EEE之操作。
EEE 14.一種儲存指令之非暫時性電腦可讀媒體,該等指令當由該一或多個處理器執行時使該一或多個處理器執行EEE 1至12中任一EEE之操作。
100:編碼器/解碼器(「編解碼器」)
101:SPAR FOA編碼器
102:(被動或主動)預測器單元
103:重新混合單元
104:提取/降混選擇單元
105:增強型語音服務(EVS)編碼器
106:SPAR FOA解碼器
107:EVS解碼器
108:C區塊
109-1:去相關器區塊
109-2:去相關器區塊
110-1:P1
區塊
110-2:P2
區塊
111:逆混頻器
112:逆預測器
200:方法
S210:步驟
S220:步驟
S230:步驟
S240:步驟
300:處理迴路
S310:步驟
S320:步驟
S330:步驟
S340:步驟
S350:步驟
S360:步驟
S370:步驟
400:處理迴路
S410:步驟
S420:步驟
S430:步驟
S440:步驟
S450:步驟
S460:步驟
S461:步驟
S462:步驟
S470:步驟
下文參考附圖解釋本發明之實例實施例,其中
圖1係根據本發明之一實施例之用於編碼及解碼信號(位元流)之一編碼器/解碼器(「編解碼器」)之一方塊圖之一示意圖解說明,
圖2係繪示根據本發明之一實施例之用於一輸入信號之逐訊框編碼後設資料之一方法之一實例之一流程圖,
圖3係繪示根據本發明之一實施例之一處理迴路之一實例之一流程圖,且
圖4係繪示根據本發明之另一實施例之一處理迴路之一實例之一流程圖。
200:方法
S210:步驟
S220:步驟
S230:步驟
S240:步驟
Claims (27)
- 一種用於一輸入信號之逐訊框編碼後設資料之方法,該後設資料包括可自該輸入信號計算之複數個至少部分相關之參數,該方法包括,對於各訊框: 藉由使用一迴路程序迭代執行以下步驟: 自複數個處理策略判定一處理策略用於計算及量化該等參數; 基於該經判定之處理策略計算及量化該等參數以獲得經量化參數;及 編碼該等經量化參數, 其中該複數個處理策略之各者包括指示與個別參數之該計算及量化相關之一排序之一各自第一指示;且 其中該處理策略基於至少一個位元速率臨限值判定。
- 如請求項1之方法,其中判定該處理策略,使得該等經編碼量化參數之一位元速率等於或小於該位元速率臨限值。
- 如請求項1或2之方法,其中該複數個處理策略之各者進一步包括指示用於執行該等參數之該量化之資訊之一各自第二指示。
- 如請求項3之方法,其中用於執行該等參數之該量化之該資訊包括該複數個參數之各自量化範圍及/或量化等級。
- 如請求項1或2之方法,其中該等參數之該編碼涉及時間及/或頻率差分編碼。
- 如請求項1或2之方法,其中針對一當前訊框判定之該處理策略與針對一前一訊框判定之該處理策略不同;且其中該等參數之該編碼涉及跨不同處理策略之時間差分編碼。
- 如請求項1或2之方法,其中該第一指示包括指示所有該等參數係在量化之前經計算之資訊。
- 如請求項1之方法,其中該第一指示包括指示該等參數經個別計算且接著依序一個接一個量化之資訊, 且其中該複數個參數之至少一個參數基於該複數個參數之另一一或多個量化參數計算。
- 如請求項1之方法,其中該第一指示包括指示所有該等參數係在量化任何參數之前經計算之資訊;且其中基於另一量化參數重新計算該等參數之至少一者,且量化該經重新計算參數。
- 如請求項6之方法,其中該方法進一步包括,在編碼該等經量化參數之前: 將該等經量化參數之索引自該前一訊框映射至該當前訊框之索引。
- 如請求項1或2之方法,其中該至少一個位元速率臨限值包括一目標位元速率臨限值,且其中該迴路程序涉及以下步驟: 根據該處理策略用一熵編碼器依一非差分及/或頻率差分方式量化及編碼該等參數; 估計該等經編碼參數之一第一參數位元速率;及 若該第一參數位元速率小於或等於該目標位元速率臨限值,則退出該迴路程序。
- 如請求項11之方法,其中該迴路程序進一步涉及以下步驟: 若該第一參數位元速率大於該目標位元速率臨限值: 則根據該處理策略依一無熵之非差分方式量化及編碼該等參數; 估計該等經編碼參數之一第二參數位元速率;及 若該第二參數位元速率小於或等於該目標位元速率臨限值,則退出該迴路程序。
- 如請求項12之方法,其中該迴路程序進一步涉及以下步驟: 若該第二參數位元速率大於該目標位元速率臨限值: 則用該熵編碼器根據該處理策略依一時間差分方式量化及編碼該等參數; 估計該等經編碼參數之一第三參數位元速率;及 若該第三參數位元速率小於或等於該目標位元速率臨限值,則退出該迴路程序。
- 如請求項13之方法,其中依相對於一前一訊框之一頻率交織方式對該等參數之一子集執行該時間差分量化及編碼。
- 如請求項13或14之方法,其中藉由迴路通過數個頻率交織之時間差分編碼方案來執行該時間差分量化及編碼,使得對於各循環,時間差分化量化及編碼該等參數之一不同子集,而非差分化量化及編碼該等剩餘參數。
- 如請求項13或14之方法,其中該經判定處理策略係一第一處理策略,且其中該迴路程序進一步涉及: 若該第三參數位元速率大於該目標位元速率臨限值: 則自該複數個處理策略判定一第二處理策略,使得藉由應用該第二處理策略之一位元速率預期小於使用該第一處理策略之一位元速率;且 重複請求項11至13之該迴路程序之該等步驟。
- 如請求項13或14之方法,其中該等參數以一第一數目個頻帶表示,且其中該迴路程序進一步涉及以下步驟: 若該第三參數位元速率大於該目標位元速率臨限值: 則將表示該等參數之該頻帶數目減少至小於該第一數目之一第二數目,使得減少待量化及編碼之該等參數之一總數;且 重複如請求項11至13之該迴路程序之該等步驟。
- 如請求項13或14之方法,其中該等參數以一第一數目個頻帶表示,且其中該迴路程序進一步涉及以下步驟: 若該第三參數位元速率大於該目標位元速率臨限值: 則自該當前訊框中之該前一訊框重新使用一或多個頻帶中之參數;及 重複如請求項11至13之該迴路程序之該等步驟。
- 如請求項16之方法,其中該至少一個位元速率臨限值進一步包括大於該目標位元速率臨限值之一最大位元速率臨限值,且其中該迴路程序進一步涉及以下步驟: 在判定該第二處理策略,或在減少該頻帶數目,或重新使用該等參數之前: 獲得該第一參數位元速率、該第二參數位元速率及該第三參數位元速率之一最小值;及 若該最小值小於或等於該最大位元速率臨限值,則退出該迴路程序。
- 8及9中任一項之方法,其中該等參數包括預測參數、交叉預測參數及去相關參數之一或多者。
- 如請求項20當依附於請求項8時之方法,其中首先計算並量化該等預測參數,自該等經量化預測參數計算該等交叉預測參數且接著經量化,且自該等經量化交叉預測參數及該等經量化預測參數計算該等去相關參數且接著經量化。
- 如請求項20當依附於請求項9時之方法,其中首先計算該等參數,且接著量化該等去相關參數及該等預測參數,且自該等經量化預測參數重新計算該等交叉預測參數且接著經量化。
- 如請求項1或2之方法,其中該方法應用於一沉浸式語音及音訊服務、IVAS、編解碼器或一立體混響編解碼器之後設資料編碼。
- 如請求項1或2之方法,其中該訊框大小小於40 ms,特別係等於或小於20 ms。
- 一種裝置,其包括一處理器及耦合至該處理器之一記憶體,其中該處理器經調適以使該裝置執行如請求項1至24之方法。
- 一種程式,其包括當由一處理器執行時使該處理器執行如請求項1至24中任一項之方法之指令。
- 一種電腦可讀儲存媒體,其儲存如請求項26之程式。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063037784P | 2020-06-11 | 2020-06-11 | |
US63/037,784 | 2020-06-11 | ||
US202163194010P | 2021-05-27 | 2021-05-27 | |
US63/194,010 | 2021-05-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202203205A true TW202203205A (zh) | 2022-01-16 |
Family
ID=76744975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110121106A TW202203205A (zh) | 2020-06-11 | 2021-06-10 | 針對低延遲音訊編解碼器之參數之量化及熵編碼 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20230343346A1 (zh) |
EP (1) | EP4165632A2 (zh) |
JP (1) | JP2023533665A (zh) |
KR (1) | KR20230023767A (zh) |
CN (1) | CN116097350A (zh) |
AU (1) | AU2021287963A1 (zh) |
BR (1) | BR112022025109A2 (zh) |
CA (1) | CA3186884A1 (zh) |
CL (1) | CL2022003451A1 (zh) |
IL (1) | IL298813A (zh) |
MX (1) | MX2022015649A (zh) |
TW (1) | TW202203205A (zh) |
WO (1) | WO2021252811A2 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024097485A1 (en) | 2022-10-31 | 2024-05-10 | Dolby Laboratories Licensing Corporation | Low bitrate scene-based audio coding |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
AU2020320270A1 (en) * | 2019-08-01 | 2022-03-24 | Dolby Laboratories Licensing Corporation | Encoding and decoding IVAS bitstreams |
JP2023500632A (ja) * | 2019-10-30 | 2023-01-10 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 没入的音声およびオーディオ・サービスにおけるビットレート配分 |
-
2021
- 2021-06-10 KR KR1020237001287A patent/KR20230023767A/ko active Search and Examination
- 2021-06-10 US US18/008,445 patent/US20230343346A1/en active Pending
- 2021-06-10 WO PCT/US2021/036886 patent/WO2021252811A2/en active Search and Examination
- 2021-06-10 CA CA3186884A patent/CA3186884A1/en active Pending
- 2021-06-10 AU AU2021287963A patent/AU2021287963A1/en active Pending
- 2021-06-10 JP JP2022575889A patent/JP2023533665A/ja active Pending
- 2021-06-10 BR BR112022025109A patent/BR112022025109A2/pt unknown
- 2021-06-10 TW TW110121106A patent/TW202203205A/zh unknown
- 2021-06-10 CN CN202180057963.3A patent/CN116097350A/zh active Pending
- 2021-06-10 MX MX2022015649A patent/MX2022015649A/es unknown
- 2021-06-10 IL IL298813A patent/IL298813A/en unknown
- 2021-06-10 EP EP21737295.2A patent/EP4165632A2/en active Pending
-
2022
- 2022-12-06 CL CL2022003451A patent/CL2022003451A1/es unknown
Also Published As
Publication number | Publication date |
---|---|
BR112022025109A2 (pt) | 2022-12-27 |
EP4165632A2 (en) | 2023-04-19 |
IL298813A (en) | 2023-02-01 |
AU2021287963A1 (en) | 2023-02-02 |
JP2023533665A (ja) | 2023-08-04 |
US20230343346A1 (en) | 2023-10-26 |
CL2022003451A1 (es) | 2023-09-29 |
WO2021252811A3 (en) | 2022-02-10 |
CN116097350A (zh) | 2023-05-09 |
KR20230023767A (ko) | 2023-02-17 |
CA3186884A1 (en) | 2021-12-16 |
MX2022015649A (es) | 2023-03-06 |
WO2021252811A2 (en) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2418324C2 (ru) | Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием | |
US9774975B2 (en) | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation | |
JP2008542838A (ja) | 堅牢なデコーダ | |
KR20100105496A (ko) | 멀티 채널 신호의 부호화/복호화 장치 및 방법 | |
KR102492119B1 (ko) | 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품 | |
JP6573178B2 (ja) | 復号方法および復号装置 | |
JP6812504B2 (ja) | 音声符号化方法および関連装置 | |
KR102426965B1 (ko) | 대화 향상을 위한 디코딩 방법 및 디코더 | |
US9794714B2 (en) | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation | |
TW202203205A (zh) | 針對低延遲音訊編解碼器之參數之量化及熵編碼 | |
US20230238003A1 (en) | Audio encoding apparatus and method, and audio decoding apparatus and method | |
KR20240024354A (ko) | 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품 | |
JPWO2008090970A1 (ja) | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 | |
RU2662921C2 (ru) | Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения | |
AU2020340937A1 (en) | Low-latency, low-frequency effects codec | |
TW202336739A (zh) | 用於低延時沉浸式音頻編解碼器之較高階立體混響聲之空間寫碼 | |
AU2014280256A1 (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding | |
RU2773421C9 (ru) | Способ и соответствующий продукт для определения режима кодирования/декодирования аудио | |
RU2772405C2 (ru) | Способ стереокодирования и декодирования во временной области и соответствующий продукт | |
KR20210141602A (ko) | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 | |
MX2008009186A (en) | Complex-transform channel coding with extended-band frequency coding |