TWI773286B - 音頻訊號的比特分配方法和裝置 - Google Patents
音頻訊號的比特分配方法和裝置 Download PDFInfo
- Publication number
- TWI773286B TWI773286B TW110115467A TW110115467A TWI773286B TW I773286 B TWI773286 B TW I773286B TW 110115467 A TW110115467 A TW 110115467A TW 110115467 A TW110115467 A TW 110115467A TW I773286 B TWI773286 B TW I773286B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio signal
- grading
- parameter
- parameters
- sound field
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 969
- 238000000034 method Methods 0.000 title claims abstract description 159
- 238000009792 diffusion process Methods 0.000 claims description 104
- 230000033001 locomotion Effects 0.000 claims description 104
- 238000012545 processing Methods 0.000 claims description 78
- 230000008569 process Effects 0.000 claims description 38
- 238000004891 communication Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000012913 prioritisation Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本申請提供一種音頻訊號的比特分配方法和裝置。本申請音頻訊號的比特分配方法,包括:獲取當前幀中的T個音頻訊號,T為正整數;根據所述T個音頻訊號確定第一音頻訊號集合,所述第一音頻訊號集合包括M個音頻訊號,M為正整數,所述T個音頻訊號包括所述M個音頻訊號,T≥M;確定所述第一音頻訊號集合中的所述M個音頻訊號的優先級;根據所述M個音頻訊號的優先級對所述M個音頻訊號進行比特分配。本申請可以自適應音頻訊號的特徵,同時針對不同音頻訊號匹配不同的編碼比特數,提高了音頻訊號的編解碼效率。
Description
本申請是關於音頻處理技術,尤其是關於一種音頻訊號的比特分配方法和裝置。
聲音是人類獲取資訊的主要途徑之一,隨著高性能電腦和訊號處理技術的飛速發展,沉浸式音頻技術受到越來越多的關注。具有沉浸感的三維音頻(3D audio)技術是通過將音頻拓展到高維空間表示,為用戶提供更佳的三維聲音體驗。三維音頻技術在回放端不再是簡單的採用多聲道進行表示,而是將音頻訊號在三維空間中進行重構,通過渲染技術實現音頻在三維空間的表示。
在國內和國際的三維音頻編解碼標準中,分配給各個音頻訊號的用於編解碼的比特數,不能針對回放端音頻訊號的空間特性體現出其差異性,也不能自適應音頻訊號的特徵,降低了音頻訊號的編解碼效率。
本申請提供一種音頻訊號的比特分配方法和裝置,以自適應音頻訊號的特徵,同時針對不同音頻訊號匹配不同的編碼比特數,提高了音頻訊號的編解碼效率。
第一方面,本申請提供一種音頻訊號的比特分配方法,包括:獲取當前幀中的T個音頻訊號,T為正整數;根據所述T個音頻訊號確定第一音頻訊號集合,所述第一音頻訊號集合包括M個音頻訊號,M為正整數,所述T個音頻訊號包括所述M個音頻訊號,T≥M;確定所述第一音頻訊號集合中的所述M個音頻訊號的優先級;根據所述M個音頻訊號的優先級對所述M個音頻訊號進行比特分配。
本申請根據當前幀中包括的多個音頻訊號的特徵及元數據中的音頻訊號的相關資訊,確定該多個音頻訊號的優先級,根據該優先級確定要分配給各個音頻訊號的比特數,既可以自適應音頻訊號的特徵,也可以針對不同音頻訊號匹配不同的編碼比特數,提高了音頻訊號的編解碼效率。
在一種可能的實現方式中,所述確定所述第一音頻訊號集合中的所述M個音頻訊號的優先級,包括:獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數;根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級。
在一種可能的實現方式中,所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
參考音頻訊號的多種參數,可以獲取涉及多個維度資訊的音頻訊號的優先級。
在一種可能的實現方式中,所述獲取當前幀中的T個音頻訊號的同時,還包括:獲取所述當前幀中的S組元數據,S為正整數,T≥S,所述S組元數據和所述T個音頻訊號對應,所述元數據用於描述對應的音頻訊號在空間聲場中的狀態。
元數據作為對應的音頻訊號在空間聲場中的狀態的描述資訊,可以為後續獲取以音頻訊號的聲場分級參數提供可靠且有效的依據。
在一種可能的實現方式中,所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
參考音頻訊號的多種參數以及音頻訊號的元數據,可以獲取涉及多個維度資訊的可靠的音頻訊號的優先級。
在一種可能的實現方式中,所述根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數,包括:對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個加權平均獲取所述聲場分級參數;或者,對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個求平均獲取所述聲場分級參數;或者,將獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個作為所述聲場分級參數。
在一種可能的實現方式中,所述根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級,包括:根據設定的第一對應關係將與第一音頻訊號的聲場分級參數對應的優先級確定為所述第一音頻訊號的優先級,所述第一對應關係包括多個聲場分級參數和多個優先級之間的對應關係,其中,一個或多個所述聲場分級參數對應一個所述優先級,所述第一音頻訊號為所述M個音頻訊號中的任意一個;或者,將所述第一音頻訊號的聲場分級參數作為所述第一音頻訊號的優先級;或者,根據設定的多個範圍閾值確定所述第一音頻訊號的聲場分級參數的所屬範圍,將與所述第一音頻訊號的聲場分級參數的所屬範圍對應的優先級確定為所述第一音頻訊號的優先級。
在一種可能的實現方式中,所述根據所述M個音頻訊號的優先級對所述M個音頻訊號進行比特分配,包括:根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,優先級越高的音頻訊號分配的比特數越多。
在一種可能的實現方式中,所述根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,包括:根據第一音頻訊號的優先級確定所述第一音頻訊號的比特數占比,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據所述當前可用比特數和所述第一音頻訊號的比特數占比的乘積獲取所述第一音頻訊號的比特數。
在一種可能的實現方式中,所述根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,包括:根據第一音頻訊號的優先級從設定的第二對應關係中確定所述第一音頻訊號的比特數,所述第二對應關係包括多個優先級和多個比特數之間的對應關係,其中,一個或多個所述優先級對應一個所述比特數,所述第一音頻訊號為所述M個音頻訊號中的任意一個。
在一種可能的實現方式中,所述根據所述T個音頻訊號確定第一音頻訊號集合,包括:將所述T個音頻訊號中預先指定的音頻訊號加入所述第一音頻訊號集合。
在一種可能的實現方式中,所述根據所述T個音頻訊號確定第一音頻訊號集合,包括:將所述S組元數據在所述T個音頻訊號中對應的音頻訊號加入所述第一音頻訊號集合;或者,將大於或等於設定的參與閾值的重要度參數對應的音頻訊號加入所述第一音頻訊號集合,所述元數據包括所述重要度參數,所述T個音頻訊號包括所述重要度參數對應的音頻訊號。
在一種可能的實現方式中,所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;根據與所述第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
本申請針對音頻訊號的不同特性採用多種方法獲取音頻訊號相關的多個聲場分級參數,再根據該多個聲場分級參數確定音頻訊號的優先級,這樣獲取的優先級既可以參考音頻訊號的多個特性,還可以兼容不同特性對應的實現方案。
在一種可能的實現方式中,所述根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級,包括:根據所述第一聲場分級參數獲取所述第一音頻訊號的第一優先級;根據所述第二聲場分級參數獲取所述第一音頻訊號的第二優先級;根據所述第一優先級和所述第二優先級獲取所述第一音頻訊號的優先級。
本申請針對音頻訊號的不同特性採用多種方法獲取音頻訊號相關的多個優先級,再對該多個優先級進行兼容合併獲取音頻訊號最終的優先級,這樣獲取的優先級既可以參考音頻訊號的多個特性,還可以兼容不同特性對應的實現方案。
第二方面,本申請提供一種音頻訊號的編碼方法,執行完上述第一方面中任一項所述的音頻訊號的比特分配方法之後,還包括:根據所述M個音頻訊號所分配的比特數對所述M個音頻訊號進行編碼以獲取編碼碼流。
在一種可能的實現方式中,所述編碼碼流包括所述M個音頻訊號的比特數。
第三方面,本申請提供一種音頻訊號的解碼方法,執行完上述第一方面中任一項所述的音頻訊號的比特分配方法之後,還包括:接收編碼碼流;執行如上述第一方面中任一項所述的音頻訊號的比特分配方法獲取所述M個音頻訊號各自的比特數;根據所述M個音頻訊號各自的比特數以及所述編碼碼流重建所述M個音頻訊號。
第四方面,本申請提供一種音頻訊號的比特分配裝置,包括:處理模組,用於獲取當前幀中的T個音頻訊號,T為正整數;根據所述T個音頻訊號確定第一音頻訊號集合,所述第一音頻訊號集合包括M個音頻訊號,M為正整數,所述T個音頻訊號包括所述M個音頻訊號,T≥M;確定所述第一音頻訊號集合中的所述M個音頻訊號的優先級;根據所述M個音頻訊號的優先級對所述M個音頻訊號進行比特分配。
在一種可能的實現方式中,所述處理模組,具體用於獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數;根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級。
在一種可能的實現方式中,所述處理模組,具體用於獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組,具體用於獲取所述當前幀中的S組元數據,S為正整數,T≥S,所述S組元數據和所述T個音頻訊號對應,所述元數據用於描述對應的音頻訊號在空間聲場中的狀態。
在一種可能的實現方式中,所述處理模組,具體用於根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組,具體用於對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個加權平均獲取所述聲場分級參數;或者,對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個求平均獲取所述聲場分級參數;或者,將獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個作為所述聲場分級參數。
在一種可能的實現方式中,所述處理模組,具體用於根據設定的第一對應關係將與所述第一音頻訊號的聲場分級參數對應的優先級確定為所述第一音頻訊號的優先級,所述第一對應關係包括多個聲場分級參數和多個優先級之間的對應關係,其中,一個或多個所述聲場分級參數對應一個所述優先級,所述第一音頻訊號為所述M個音頻訊號中的任意一個;或者,將所述第一音頻訊號的聲場分級參數作為所述第一音頻訊號的優先級;或者,根據設定的多個範圍閾值確定所述第一音頻訊號的聲場分級參數的所屬範圍,將與所述第一音頻訊號的聲場分級參數的所屬範圍對應的優先級確定為所述第一音頻訊號的優先級。
在一種可能的實現方式中,所述處理模組,具體用於根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,優先級越高的音頻訊號分配的比特數越多。
在一種可能的實現方式中,所述處理模組,具體用於根據第一音頻訊號的優先級確定所述第一音頻訊號的比特數占比,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據所述當前可用比特數和所述第一音頻訊號的比特數占比的乘積獲取所述第一音頻訊號的比特數。
在一種可能的實現方式中,所述處理模組,具體用於根據第一音頻訊號的優先級從設定的第二對應關係中確定所述第一音頻訊號的比特數,所述第二對應關係包括多個優先級和多個比特數之間的對應關係,其中,一個或多個所述優先級對應一個所述比特數,所述第一音頻訊號為所述M個音頻訊號中的任意一個。
在一種可能的實現方式中,所述處理模組,具體用於將所述T個音頻訊號中預先指定的音頻訊號加入所述第一音頻訊號集合。
在一種可能的實現方式中,所述處理模組,具體用於將所述S組元數據在所述T個音頻訊號中對應的音頻訊號加入所述第一音頻訊號集合;或者,將大於或等於設定的參與閾值的重要度參數對應的音頻訊號加入所述第一音頻訊號集合,所述元數據包括所述重要度參數,所述T個音頻訊號包括所述重要度參數對應的音頻訊號。
在一種可能的實現方式中,所述處理模組,具體用於獲取第一音頻信的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組,具體用於根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;根據與所述第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組,具體用於根據所述第一聲場分級參數獲取所述第一音頻訊號的第一優先級;根據所述第二聲場分級參數獲取所述第一音頻訊號的第二優先級;根據所述第一優先級和所述第二優先級獲取所述第一音頻訊號的優先級。
在一種可能的實現方式中,所述處理模組,還用於根據所述M個音頻訊號所分配的比特數對所述M個音頻訊號進行編碼以獲取編碼碼流。
在一種可能的實現方式中,所述編碼碼流包括所述M個音頻訊號的比特數。
在一種可能的實現方式中,還包括:收發模組,用於接收編碼碼流;所述處理模組,還用於獲取所述M個音頻訊號各自的比特數;根據所述M個音頻訊號各自的比特數以及所述編碼碼流重建所述M個音頻訊號。
第五方面,本申請提供一種設備,包括:一個或多個處理器;儲存裝置,用於儲存一個或多個程序;當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上述第一至三方面中任一項所述的方法。
第六方面,本申請提供一種電腦可讀儲存媒體,其中包括電腦程序,所述電腦程序在電腦上被執行時,使得所述電腦執行上述第一至三方面中任一項所述的方法。
第七方面,本申請提供一種電腦可讀儲存媒體,包括根據如上述第二方面所述的方法獲取的編碼碼流。
第八方面,本申請提供一種編碼裝置,包括處理器和通訊介面,所述處理器通過所述通訊介面讀取儲存電腦程序,所述電腦程序包括程序指令,所述處理器用於調用所述程序指令,執行如上述第一至三方面中任一項所述的方法。
第九方面,本申請提供一種編碼裝置,其中包括處理器和儲存裝置,所述處理器用於執行上述第二方面所述的方法,所述儲存裝置用於存放所述編碼碼流。
為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請中的附圖,對本申請中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲取的所有其他實施例,都屬於本申請保護的範圍。
本申請的說明書實施例和申請專利範圍及附圖中的術語「第一」、「第二」等僅用於區分描述的目的,而不能理解為指示或暗示相對重要性,也不能理解為指示或暗示順序。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元。方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
應當理解,在本申請中,「至少一個(項)」是指一個或者多個,「多個」是指兩個或兩個以上。「和/或」,用於描述關聯對象的關聯關係,表示可以存在三種關係,例如,「A和/或B」可以表示:只存在A,只存在B以及同時存在A和B三種情況,其中A,B可以是單數或者複數。字符「/」一般表示前後關聯對象是一種「或」的關係。「以下至少一項(個)」或其類似表達,是指這些項中的任意組合,包括單項(個)或複數項(個)的任意組合。例如,a,b或c中的至少一項(個),可以表示:a,b,c,「a和b」,「a和c」,「b和c」,或「a和b和c」,其中a,b,c可以是單個,也可以是多個。
本申請涉及到的相關名詞解釋:
音頻幀:音頻數據是流式的,在實際應用中,為了便於音頻處理和傳輸,通常取一時長內的音頻數據量作為一幀音頻,該時長被稱為「採樣時間」,可以根據編解碼器和具體應用的需求確定其值,例如該時長為2.5ms~60ms,ms為毫秒。
音頻訊號:音頻訊號是帶有語音、音樂和音效的有規律的聲波的頻率、幅度變化資訊載體。音頻是一種連續變化的模擬訊號,可用一條連續的曲線來表示,稱為聲波。音頻通過模數轉換或電腦生成的數位訊號即為音頻訊號。聲波有三個重要參數:頻率、幅度和相位,這也就決定了音頻訊號的特徵。
元數據:元數據(Metadata),又稱中介數據、中繼數據,是描述數據的數據(data about data),主要用於描述數據屬性(property),支持例如指示儲存位置、歷史數據、資源查找、文件記錄等功能。元數據是關於數據的組織、數據域及其關係的資訊,簡言之,元數據就是關於數據的數據。本申請中元數據用於描述對應的音頻訊號在空間聲場中的狀態。三維音頻:
以下是本申請所應用的系統架構。
圖1A示例性地給出了本申請所應用的音頻編碼及解碼系統10的示意性方塊圖。如圖1A所示,音頻編碼及解碼系統10可包括源設備12和目的設備14,源設備12產生經編碼的音頻數據,因此,源設備12可被稱為音頻編碼裝置。目的設備14可對由源設備12所產生的經編碼的音頻數據進行解碼,因此,目的設備14可被稱為音頻解碼裝置。源設備12、目的設備14或兩個的各種實施方案可包含一或多個處理器以及耦合到一或多個處理器的儲存裝置。所述儲存裝置可包含但不限於隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃儲存裝置或可用於以可由電腦存取的指令或數據結構的形式儲存所要的程序代碼的任何其它媒體。源設備12和目的設備14可以包括各種裝置,包含桌上型電腦、移動計算裝置、筆記型(例如,膝上型)電腦、平板電腦、機頂盒、例如所謂的「智能」電話等電話手持機、電視機、相機、顯示裝置、數位媒體播放器、音頻遊戲控制台、車載電腦、無線通訊設備或其類似者。
雖然圖1A將源設備12和目的設備14繪示為單獨的設備,但設備實施例也可以同時包括源設備12和目的設備14或同時包括兩者的功能性,即源設備12或對應的功能性以及目的設備14或對應的功能性。在此類實施例中,可以使用相同硬體和/或軟體,或使用單獨的硬體和/或軟體,或其任何組合來實施源設備12或對應的功能性以及目的設備14或對應的功能性。
源設備12和目的設備14之間可通過鏈路13進行通訊連接,目的設備14可經由鏈路13從源設備12接收經編碼的音頻數據。鏈路13可包括能夠將經編碼的音頻數據從源設備12移動到目的設備14的一或多個媒體或裝置。在一個實例中,鏈路13可包括使得源設備12能夠實時將經編碼的音頻數據直接發射到目的設備14的一或多個通訊媒體。在此實例中,源設備12可根據通訊標準(例如無線通訊協議)來調製經編碼的音頻數據,且可將經調製的音頻數據發射到目的設備14。所述一或多個通訊媒體可包含無線和/或有線通訊媒體,例如射頻(RF)頻譜或一或多個物理傳輸線。所述一或多個通訊媒體可形成基於分組的網路的一部分,基於分組的網路例如為局域網、廣域網或全球網路(例如,因特網)。所述一或多個通訊媒體可包含路由器、交換器、基站或促進從源設備12到目的設備14的通訊的其它設備。
源設備12包括編碼器20,另外可選地,源設備12還可以包括音頻源16、音頻預處理器18、以及通訊介面22。具體實現形態中,所述編碼器20、音頻源16、音頻預處理器18、以及通訊介面22可能是源設備12中的硬體部件,也可能是源設備12中的軟體程序。分別描述如下:
音頻源16,可以包括或可以為任何類別的音頻捕獲設備,用於例如捕獲現實世界聲音,和/或任何類別的音頻生成設備,例如,電腦音頻處理器,或用於獲取和/或提供現實世界音頻、電腦動畫音頻(例如,屏幕內容、虛擬現實(virtual reality,VR)中的音頻)的任何類別設備,和/或其任何組合(例如,增強現實(augmented reality,AR)中的音頻)。音頻源16可以為用於捕獲音頻的麥克風或者用於儲存音頻的儲存裝置,音頻源16還可以包括儲存先前捕獲或產生的音頻和/或獲取或接收音頻的任何類別的(內部或外部)介面。當音頻源16為麥克風時,音頻源16可例如為本地的或集成在源設備中的音頻採集裝置;當音頻源16為儲存裝置時,音頻源16可為本地的或例如集成在源設備中的集成儲存裝置。當所述音頻源16包括介面時,介面可例如為從外部音頻源接收音頻的外部介面,外部音頻源例如為外部音頻捕獲設備,比如話筒、麥克風、外部儲存裝置或外部音頻生成設備,外部音頻生成設備例如為外部電腦音頻處理器、電腦或服務器。介面可以為根據任何專有或標準化介面協議的任何類別的介面,例如有線或無線介面、光介面。
其中,音頻可以視為像素點(picture element)的一維向量。向量中的像素點也可以稱為採樣點。向量或音頻上的採樣點數目定義音頻的大小。本申請中,由音頻源16傳輸至音頻處理器的音頻也可稱為原始音頻數據17。
音頻預處理器18,用於接收原始音頻數據17並對原始音頻數據17執行預處理,以獲取經預處理的音頻19或經預處理的音頻數據19。例如,音頻預處理器18執行的預處理可以包括整修、調色或去噪。
編碼器20(或稱音頻編碼器20),用於接收經預處理的音頻數據19,對經預處理的音頻數據19進行處理,從而提供經編碼的音頻數據21。在一些實施例中,編碼器20可以用於執行下文所描述的各個實施例,以實現本申請所描述的音頻訊號的比特分配方法在編碼側的應用。
通訊介面22,可用於接收經編碼的音頻數據21,並可通過鏈路13將經編碼的音頻數據21傳輸至目的設備14或任何其它設備(如儲存裝置),以用於儲存或直接重構,所述其它設備可為任何用於解碼或儲存的設備。通訊介面22可例如用於將經編碼的音頻數據21封裝成合適的格式,例如數據包,以在鏈路13上傳輸。
目的設備14包括解碼器30,另外可選地,目的設備14還可以包括通訊介面28、音頻後處理器32和播放設備34。分別描述如下:
通訊介面28,可用於從源設備12或任何其它源接收經編碼的音頻數據21,所述任何其它源例如為儲存設備,儲存設備例如為經編碼的音頻數據儲存設備。通訊介面28可以用於藉由源設備12和目的設備14之間的鏈路13或藉由任何類別的網路傳輸或接收經編碼的音頻數據21,鏈路13例如為直接有線或無線連接,任何類別的網路例如為有線或無線網路或其任何組合,或任何類別的私有網域和公有網域,或其任何組合。通訊介面28可以例如用於解封裝通訊介面22所傳輸的數據包以獲取經編碼的音頻數據21。
通訊介面28和通訊介面22都可以配置為單向通訊介面或者雙向通訊介面,以及可以用於例如發送和接收消息來建立連接、確認和交換任何其它與通訊鏈路和/或例如經編碼的音頻數據傳輸的數據傳輸有關的資訊。
解碼器30(或稱為解碼器30),用於接收經編碼的音頻數據21並提供經解碼的音頻數據31或經解碼的音頻31。在一些實施例中,解碼器30可以用於執行下文所描述的各個實施例,以實現本申請所描述的音頻訊號的比特分配方法在解碼側的應用。
音頻後處理器32,用於對經解碼的音頻數據31(也稱為經重構音頻數據)執行後處理,以獲取經後處理的音頻數據33。音頻後處理器32執行的後處理可以包括:整修或重採樣,或任何其它處理,還可用於將經後處理的音頻數據33傳輸至播放設備34。
播放設備34,用於接收經後處理的音頻數據33以向例如用戶或收聽者播放音頻。播放設備34可以為或可以包括任何類別的用於呈現經重構音頻的播放器器,例如,集成的或外部的喇叭器或揚聲器。
雖然,圖1A將源設備12和目的設備14繪示為單獨的設備,但設備實施例也可以同時包括源設備12和目的設備14或同時包括兩者的功能性,即源設備12或對應的功能性以及目的設備14或對應的功能性。在此類實施例中,可以使用相同硬體和/或軟體,或使用單獨的硬體和/或軟體,或其任何組合來實施源設備12或對應的功能性以及目的設備14或對應的功能性。
本領域技術人員基於描述明顯可知,不同單元的功能性或圖1A所示的源設備12和/或目的設備14的功能性的存在和(準確)劃分可能根據實際設備和應用有所不同。源設備12和目的設備14可以包括各種設備中的任一個,包含任何類別的手持或靜止設備,例如,筆記型或膝上型電腦、移動電話、智能手機、平板或平板電腦、攝像機、臺式電腦、機頂盒、電視機、相機、車載設備、播放設備、數位媒體播放器、遊戲控制台、媒體流式傳輸設備(例如內容服務服務器或內容分發服務器)、廣播接收器設備、廣播發射器設備等,並可以不使用或使用任何類別的操作系統。
編碼器20和解碼器30都可以實施為各種合適電路中的任一個,例如,一個或多個微處理器、數位訊號處理器(digital signal processor,DSP)、專用積體電路(application-specific integrated circuit,ASIC)、場效可程式閘陣列 (field-programmable gate array,FPGA)、離散邏輯、硬體或其任何組合。如果部分地以軟體實施所述技術,則設備可將軟體的指令儲存於合適的非暫態電腦可讀儲存媒體中,且可使用一或多個處理器以硬體執行指令從而執行本公開的技術。前述內容(包含硬體、軟體、硬體與軟體的組合等)中的任一者可視為一或多個處理器。
在一些情況下,圖1A中所示音頻編碼及解碼系統10僅為示例,本申請的技術可以適用於不必包含編碼和解碼設備之間的任何數據通訊的音頻編碼設置(例如,音頻編碼或音頻解碼)。在其它實例中,數據可從本地儲存裝置檢索、在網路上流式傳輸等。音頻編碼設備可以對數據進行編碼並且將數據儲存到儲存裝置,和/或音頻解碼設備可以從儲存裝置檢索數據並且對數據進行解碼。在一些實例中,由並不彼此通訊而是僅編碼數據到儲存裝置和/或從儲存裝置檢索數據且解碼數據的設備執行編碼和解碼。
圖1B是根據一示例性實施例的音頻譯碼系統40的實例的說明圖。音頻譯碼系統40可以實現本申請的各種技術的組合。在所說明的實施方式中,音頻譯碼系統40可以包含麥克風41、編碼器20、解碼器30(和/或藉由處理單元46的邏輯電路47實施的音頻編/解碼器)、天線42、一個或多個處理器43、一個或多個儲存裝置44和/或播放設備45。
如圖1B所示,麥克風41、天線42、處理單元46、邏輯電路47、編碼器20、解碼器30、處理器43、儲存裝置44和/或播放設備45能夠互相通訊。如所論述,雖然用編碼器20和解碼器30繪示音頻譯碼系統40,但在不同實例中,音頻譯碼系統40可以只包含編碼器20或只包含解碼器30。
在一些實例中,天線42可以用於傳輸或接收音頻數據的經編碼碼流。另外,在一些實例中,播放設備45可以用於播放音頻數據。在一些實例中,邏輯電路47可以通過處理單元46實施。處理單元46可以包含專用積體電路(application-specific integrated circuit,ASIC)邏輯、圖形處理器、通用處理器等。音頻譯碼系統40也可以包含可選的處理器43,該可選處理器43類似地可以包含專用積體電路(application-specific integrated circuit,ASIC)邏輯、通用處理器等。在一些實例中,邏輯電路47可以通過硬體實施,如音頻編碼專用硬體等,處理器43可以通過通用軟體、操作系統等實施。另外,儲存裝置44可以是任何類型的儲存裝置,例如揮發式記憶體(例如,靜態隨機存取記憶體(Static Random Access Memory,SRAM)、動態隨機儲存裝置(Dynamic Random Access Memory,DRAM)等)或非揮發式記憶體(例如,快閃記憶體等)等。在非限制性實例中,儲存裝置44可以由超速快取記憶體實施。在一些實例中,邏輯電路47可以訪問儲存裝置44。在其它實例中,邏輯電路47和/或處理單元46可以包含儲存裝置(例如,快取記憶體等)用於實施緩衝器等。
在一些實例中,通過邏輯電路實施的編碼器20可以包含(例如,通過處理單元46或儲存裝置44實施的)緩衝器和(例如,通過處理單元46實施的)音頻處理單元。音頻處理單元可以通訊耦合至緩衝器。音頻處理單元可以包含通過邏輯電路47實施的編碼器20,以實施本文中所描述的任何其它編碼器系統或子系統所論述的各種模組。邏輯電路可以用於執行本文所論述的各種操作。
在一些實例中,解碼器30可以以類似方式通過邏輯電路47實施,以實施本文中所描述的任何其它解碼器系統或子系統所論述的各種模組。在一些實例中,邏輯電路實施的解碼器30可以包含(通過處理單元2820或儲存裝置44實施的)緩衝器和(例如,通過處理單元46實施的)音頻處理單元。音頻處理單元可以通訊耦合至緩衝器。音頻處理單元可以包含通過邏輯電路47實施的解碼器30,以實施本文中所描述的任何其它解碼器系統或子系統所論述的各種模組。
在一些實例中,天線42可以用於接收音頻數據的經編碼碼流。如所論述,經編碼碼流可以包含本文所論述的與音頻幀相關的音頻訊號數據、元數據等。音頻譯碼系統40還可包含耦合至天線42並用於解碼經編碼碼流的解碼器30。播放設備45用於播放音頻幀。
應理解,本申請中對於參考編碼器20所描述的實例,解碼器30可以用於執行相反過程。關於元數據,解碼器30可以用於接收並解析這種元數據,相應地解碼相關音頻數據。在一些例子中,編碼器20可以將元數據熵編碼成經編碼音頻碼流。在此類實例中,解碼器30可以解析這種元數據,並相應地解碼相關音頻數據。
圖2是本申請提供的音頻譯碼設備200(例如音頻編碼設備或音頻解碼設備)的結構示意圖。音頻譯碼設備200適於實施本申請所描述的實施例。在一個實施例中,音頻譯碼設備200可以是音頻解碼器(例如圖1A的解碼器30)或音頻編碼器(例如圖1A的編碼器20)。在另一個實施例中,音頻譯碼設備200可以是上述圖1A的解碼器30或圖1A的編碼器20中的一個或多個組件。
音頻譯碼設備200包括:用於接收數據的入口介面210和接收單元(Rx)220,用於處理數據的處理器、邏輯單元或中央處理器(CPU)230,用於傳輸數據的發射器單元(Tx)240和出口介面250,以及,用於儲存數據的儲存裝置260。音頻譯碼設備200還可以包括與入口介面210、接收器單元220、發射器單元240和出口介面250耦合的光電轉換組件和電光(EO)組件,用於光訊號或電訊號的出口或入口。
處理器230通過硬體和軟體實現。處理器230可以實現為一個或多個CPU晶片、核(例如,多核處理器)、FPGA、ASIC和DSP。處理器230與入口介面210、接收器單元220、發射器單元240、出口介面250和儲存裝置260通訊。處理器230包括譯碼模組270(例如編碼模組270或解碼模組270)。編碼/解碼模組270實現本文中所公開的實施例,以實現本申請所提供的音頻訊號的比特分配方法。例如,編碼/解碼模組270實現、處理或提供各種編碼操作。因此,通過編碼/解碼模組270為音頻譯碼設備200的功能提供了實質性的改進,並影響了音頻譯碼設備200到不同狀態的轉換。或者,以儲存在儲存裝置260中並由處理器230執行的指令來實現編碼/解碼模組270。
儲存裝置260包括一個或多個磁碟、磁帶機和固態硬盤,可以用作溢出數據儲存設備,用於在選擇性地執行這些程序時儲存程序,並儲存在程序執行過程中讀取的指令和數據。儲存裝置260可以是揮發式和/或非揮發式的,可以是唯讀記憶體(ROM)、隨機存取記憶體(RAM)、三態內容可定址記憶體(ternary content-addressable memory,TCAM)和/或靜態隨機存取記憶體(SRAM)。
圖3是根據一示例性實施例的裝置300的簡化方塊圖。裝置300可以實現本申請的技術。換言之,圖3為本申請的編碼設備或解碼設備(簡稱為譯碼設備300)的一種實現方式的示意性方塊圖。其中,裝置300可以包括處理器310、儲存裝置330和總線系統350。其中,處理器和儲存裝置通過總線系統相連,該儲存裝置用於儲存指令,該處理器用於執行該儲存裝置儲存的指令。譯碼設備的儲存裝置儲存程序代碼,且處理器可以調用儲存裝置中儲存的程序代碼執行本申請描述的方法。為避免重複,這裡不再詳細描述。
在本申請中,該處理器310可以是中央處理單元(Central Processing Unit,簡稱為「CPU」),該處理器310還可以是其他通用處理器、數位訊號處理器(DSP)、專用積體電路(ASIC)、場效可程式閘陣列(FPGA)或者其他可編程邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。
該儲存裝置330可以包括唯讀記憶體(ROM)設備或者隨機存取記憶體(RAM)設備。任何其他適宜類型的儲存設備也可以用作儲存裝置330。儲存裝置330可以包括由處理器310使用總線350訪問的代碼和數據331。儲存裝置330可以進一步包括操作系統333和應用程序335。
該總線系統350除包括數據總線之外,還可以包括電源總線、控制總線和狀態訊號總線等。但是為了清楚說明起見,在圖中將各種總線都標為總線系統350。
可選的,譯碼設備300還可以包括一個或多個輸出設備,諸如揚聲器370。在一個示例中,揚聲器370可以是耳機或外放。揚聲器370可以經由總線350連接到處理器310。
基於上述實施例的描述,本申請提供了一種音頻訊號的比特分配方法。圖4是用於實現本申請的一種音頻訊號的比特分配方法的流程示意圖。該過程400可由源設備12或者目的設備14執行。過程400描述為一系列的步驟或操作,應當理解的是,過程400可以以各種順序執行和/或同時發生,不限於圖4所示的執行順序。如圖4所示,該方法包括:
步驟401、獲取當前幀中的T個音頻訊號。
T為正整數。當前幀是本申請的方法執行過程時,在當前時刻獲取到的音頻幀。為了營造具有沉浸感的立體聲音效果,三維音頻技術不再是簡單的採用多聲道進行表示,而是將不同的聲音採用不同的音頻訊號的表示,例如,環境中包括人的聲音、音樂的聲音、汽車的聲音等,分別用三個音頻訊號表示人的聲音、音樂的聲音和汽車的聲音,然後在三維空間中根據這三個音頻訊號對各個聲音進行重構,實現多種聲音在三維空間的表示。即音頻幀中可能包含了多個音頻訊號,一個音頻訊號代表現實中的一種語音、音樂或音效。需要說明的是,任何從音頻幀中提取音頻訊號的技術均可以用於本申請,對此不作具體限定。
在一種可能的實現方式中,獲取當前幀中的S組元數據,該S組元數據和上述T個音頻訊號對應。例如,T個音頻訊號中的每個音頻訊號對應一組元數據,此時S=T。又例如,T個音頻訊號中只有部分音頻訊號存在對應元數據,此時T>S。對此不作具體限定。
本申請中,在編碼端基於對原始語音、音樂或音效等的預先處理,音頻數據和元數據在該過程中已分別生成,編碼端可以根據音頻幀的原理,對應於當前幀的起始時間(採樣點)和終止時間(採樣點),取對應時間範圍內的元數據作為當前幀的元數據。在解碼端可以從接收到的碼流中解析獲取當前幀的元數據。
本申請採用元數據描述音頻訊號在空間聲場中的狀態。示例性的,表1示出了一個元數據示例,該元數據包括的參數有對象索引(object_index)、方位角(position_azimuth)、俯仰角(position_elevation)、位置半徑(position_radius)、增益因子(gain_factor)、統一傳播度(spread_uniform)、傳播寬度(spread_width)、傳播高度(spread_height)、傳播深度(spread_depth)、擴散度(diffuseness)、重要度(priority)、分割度(divergence)和速度(speed),元數據中記錄了上述參數的取值範圍和比特數。需要說明的是,元數據還可以包括其他參數及參數的記錄形式,本申請對此不作具體限定。
表1
元數據 | 取值範圍(精度) | 比特數 |
object_index | 1;128(1) | 7 |
position_azimuth | -180;180(2) | 8 |
position_elevation | -90;90(5) | 6 |
position_radius | 0.5;16(non-linear) | 4 |
gain_factor | 0.004;5.957(non-linear) | 7 |
spread_uniform | 0;180 | 7 |
spread_width | 0;180 | 7 |
spread_height | 0;90 | 5 |
spread_depth | 0;15.5 | 4 |
diffuseness | 0;1 | 7 |
priority | 0;7 | 3 |
divergence | 0;1 | 8 |
speed | 0,1 | 4 |
步驟402、根據T個音頻訊號確定第一音頻訊號集合。
該第一音頻訊號集合包括M個音頻訊號,M為正整數,T個音頻訊號包括M個音頻訊號,T≥M。本申請中可以將T個音頻訊號中有對應的元數據的音頻訊號加入第一音頻訊號集合。即如果上述T個音頻訊號均對應元數據,則可以將T個音頻訊號全部加入第一音頻訊號集合中,如果上述T個音頻訊號中只有部分音頻訊號對應元數據,則只需將這部分音頻訊號加入第一音頻訊號集合。本申請還可以將T個音頻訊號中預先指定的音頻訊號加入第一音頻訊號集合。通過高層信令或用戶指定的方式,可以將上述T個音頻訊號中的部分或全部音頻訊號加入第一音頻訊號集合。可選的,高層信令直接配置要加入第一音頻訊號集合的音頻訊號的索引。或者,用戶指定語音、音樂或音效,將指定對象的音頻訊號加入第一音頻訊號集合。本申請還可以參考元數據中記錄的音頻訊號的重要度參數,該重要度參數用於表示對應音頻訊號在三維音頻中的重要性,當重要度參數大於或等於設定的參與閾值時,在上述T個音頻訊號中將重要度參數對應的音頻訊號加入第一音頻訊號集合。
需要說明的是,上述提供了幾種對當前幀中的T個音頻訊號進行歸類處理(即將T個音頻訊號中的全部或部分音頻訊號加入第一音頻訊號集合)的方法,應當理解,其並不能成為本申請的全部限定,還可以採用其他方法,包括參考高層信令的其他指定方式、元數據中的其他參數等,均可用於本申請。
步驟403、確定第一音頻訊號集合中的M個音頻訊號的優先級。
本申請可以先獲取M個音頻訊號中每個音頻訊號的聲場分級參數,然後根據M個音頻訊號中每個音頻訊號的聲場分級參數確定M個音頻訊號的優先級。
聲場分級參數可以是根據音頻訊號的相關參數獲取的音頻訊號的重要性指標,該相關參數可以包括運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,這些參數中可以根據音頻訊號自身的訊號特徵獲取,也可以根據音頻訊號的元數據獲取。其中,運動分級參數用於描述第一音頻訊號在空間聲場中單位時間內移動快慢,音量分級參數用於描述第一音頻訊號在空間聲場中回放時的音量大小,傳播分級參數用於描述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,擴散分級參數用於描述第一音頻訊號在空間聲場中擴散範圍的大小,狀態分級參數用於描述第一音頻訊號在空間聲場中聲源分割的大小,排序分級參數用於描述第一音頻訊號在空間聲場中優先排序的大小,訊號分級參數用於描述第一音頻訊號編碼過程中能量的大小。
以下以第i個音頻訊號為例,對上述參數的獲取方法進行說明,第i個音頻訊號是上述M個音頻訊號中的任意一個。需要說明的是,以下幾種參數是示例性的說明,還可以採用音頻訊號的其他參數或特性計算聲場分級參數,本申請對此不作具體限定。
(1)運動分級參數
可以通過以下公式計算運動分級參數:
其中,表示第i個音頻訊號的運動分級參數;表示第i個音頻訊號在空間聲場的運動狀態與元數據之間的映射關係;表示第i個音頻訊號在單位時間內移動的距離,,表示第i個音頻訊號移動後相較於渲染中心點的方位角,表示第i個音頻訊號移動後相較於渲染中心點的俯仰角,表示第i個音頻訊號移動後相較於渲染中心點的的距離,表示第i個音頻訊號移動前相較於渲染中心點的方位角,表示第i個音頻訊號移動前相較於渲染中心點的俯仰角,表示第i個音頻訊號移動前相較於渲染中心點的的距離。如圖5所示,假設以球坐標表示三維音頻在空間場中的位置,球心作為渲染中心點,球體的半徑是第i個音頻訊號在空間場中的位置與球心的距離,第i個音頻訊號在空間場中的位置與水平面之間的夾角為第i個音頻訊號的俯仰角,第i個音頻訊號在空間場中的位置在水平面上的投影與渲染中心點的正前方的夾角為第i個音頻訊號的方位角;表示上述M個音頻訊號分別在空間聲場的運動狀態與元數據之間的映射關係之和。
或者,還可以通過以下公式計算運動分級參數:
需要說明的是,運動分級參數還可以採用其他方法計算,本申請對此不作具體限定。
(2)音量分級參數
可以通過以下公式計算音量分級參數:
其中,表示第i個音頻訊號的音量分級參數;表示第i個音頻訊號在空間聲場的回放音量與訊號特徵和元數據之間的映射關係;Ai
表示第i個音頻訊號的在當前幀中的各個採樣點的幅度之和或平均值,採樣點的幅度可以通過第i個音頻訊號的元數據獲取;gaini
表示音頻訊號在當前幀中增益值,可以通過第i個音頻訊號的元數據獲取;ri
表示第i個音頻訊號在當前幀中距離渲染中心點的距離,可以通過第i個音頻訊號的元數據獲取;表示上述M個音頻訊號在空間聲場的回放音量與訊號特徵和元數據之間的映射關係之和。
或者,還可以通過以下公式計算音量分級參數:
或者,還可以通過以下公式計算音量分級參數:
或者,還可以通過以下公式計算音量分級參數:
需要說明的是,音量分級參數還可以採用其他方法計算,本申請對此不作具體限定。
(3)傳播分級參數
傳播分級參數描述了第i個音頻訊號在當前幀中的傳播度,可以通過第i個音頻訊號的spread相關元數據獲取。需要說明的是,傳播分級參數還可以採用其他方法計算,本申請對此不作具體限定。
(4)擴散分級參數
擴散分級參數描述了第i個音頻訊號在當前幀中的擴散度,可以通過第i個音頻訊號的diffuseness相關元數據獲取。需要說明的是,擴散分級參數還可以採用其他方法計算,本申請對此不作具體限定。
(5)狀態分級參數
狀態分級參數描述了第i個音頻訊號在當前幀中的分割度,可以通過第i個音頻訊號的divergence相關元數據獲取。需要說明的是,狀態分級參數還可以採用其他方法計算,本申請對此不作具體限定。
(6)排序分級參數
排序分級參數描述了第i個音頻訊號在當前幀中的優先排序度,可以通過第i個音頻訊號的priority相關元數據獲取。需要說明的是,排序分級參數還可以採用其他方法計算,本申請對此不作具體限定。
(7)訊號分級參數
訊號分級參數描述了第一音頻訊號在當前幀編碼過程中的能量,可以通過第i個音頻訊號的原始能量獲取,也可以通過第i個音頻訊號經過預處理後的訊號能量獲取。需要說明的是,訊號分級參數還可以採用其他方法計算,本申請對此不作具體限定。
該函數可以是線性的,也可以是非線性的,本申請對此不作具體限定。
在一種可能的實現方式中,可以對第i個音頻訊號的上述一個或多個參數,例如,運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個,進行加權平均獲取第i個音頻訊號的聲場分級參數。即
其中,-分別是對應參數的權重因子,該權重因子的值可以為從0-1的任意值,其總和為1。權重因子的值越大,表示其所對應的參數在計算聲場分級參數時的重要性、比重越高,如果為0表示其所對應的參數不參與聲場分級參數的計算,亦即該參數所對應的音頻訊號的特性不被考慮來計算聲場分級參數;如果為1表示只考慮其所對應的參數參與聲場分級參數的計算,亦即該參數所對應的音頻訊號的特性是計算聲場分級參數的唯一依據。權重因子的值可以通過預先設置獲取,也可以在本申請的方法執行過程中自適應計算獲取,本申請對此不作具體限定。可選的,如果只獲取第i個音頻訊號的上述一個或多個參數得其中一個參數,那麼就把該參數作為第i個音頻訊號的聲場分級參數。
在一種可能的實現方式中,可以對第i個音頻訊號的上述一個或多個參數,例如,運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個,求平均獲取第i個音頻訊號的聲場分級參數。即
需要說明的是,上述函數中,計算第i個音頻訊號的聲場分級參數上述提供了兩種計算第i個音頻訊號的聲場分級參數的函數實現方法,本申請還可以採用其他的計算方法,對此不作具體限定。
基於第i個音頻訊號的聲場分級參數,本申請可以採用以下方法獲取第i個音頻訊號的優先級。第i個音頻訊號的聲場分級參數和優先級之間是線性關係,即聲場分級參數越大,優先級越高,如圖6所示,空間聲場以渲染中心為球心,距離該球心越近的音頻訊號的優先級越高,距離該球心越遠的音頻訊號的優先級越低。
在一種可能的實現方式中,可以根據設定的第一對應關係將與第i個音頻訊號的聲場分級參數對應的優先級確定為第一音頻訊號的優先級,第一對應關係包括多個聲場分級參數和多個優先級之間的對應關係,其中,一個或多個聲場分級參數對應一個優先級。
根據音頻訊號編碼的歷史數據和/或經驗積累,可以預先設定音頻訊號的優先級等級,以及聲場分級參數和各個優先級之間的對應關係。示例性的,表2示出了聲場分級參數和優先級的一個示例性的第一對應關係。
表2
聲場分級參數 | 優先級 |
0.9 | 1 |
0.8 | 2 |
0.7 | 3 |
0.6 | 4 |
0.5 | 5 |
0.4 | 6 |
0.3 | 7 |
0.2 | 8 |
0.1 | 9 |
0 | 10 |
根據表2,當第i個音頻訊號的聲場分級參數為0.4時,其對應的優先級為6,那麼此時第i個音頻訊號的優先級為6。當第i個音頻訊號的聲場分級參數為0.1時,其對應的優先級為9,那麼此時第i個音頻訊號的優先級為9。需要說明的是,表2是聲場分級參數和優先級的對應關係的一個示例,其並不構成對本申請涉及到此類對應關係的限定。
在一種可能的實現方式中,可以將第i個音頻訊號的聲場分級參數作為第i個音頻訊號的優先級。
本申請可以不對優先級分出等級,直接將第i個音頻訊號的聲場分級參數當作其優先級。
在一種可能的實現方式中,可以根據設定的範圍閾值確定第i個音頻訊號的聲場分級參數的所屬範圍,將與第i個音頻訊號的聲場分級參數的所屬範圍對應的優先級確定為第i個音頻訊號的優先級。
根據音頻訊號編碼的歷史數據和/或經驗積累,可以預先設定音頻訊號的優先級等級,以及聲場分級參數的區間和各個優先級之間的對應關係。示例性的,表3示出了聲場分級參數和優先級的另一個示例性的第一對應關係。
表3
聲場分級參數區間 | 優先級 |
[0.9,1) | 1 |
[0.8,0.9) | 2 |
[0.7, 0.8) | 3 |
[0.6,0.7) | 4 |
[0.5,0.6) | 5 |
[0.4,0.5) | 6 |
[0.3,0.4) | 7 |
[0.2,0.3) | 8 |
[0.1,0.2) | 9 |
[0,0.1) | 10 |
根據表3,當第i個音頻訊號的聲場分級參數為0.6時,其所屬的區間為[0.6,0.7),對應的優先級為4,那麼此時第i個音頻訊號的優先級為4。當第i個音頻訊號的聲場分級參數為0.15時,其所屬的區間為[0.1,0.2),對應的優先級為9,那麼此時第i個音頻訊號的優先級為9。需要說明的是,表3是聲場分級參數和優先級的對應關係的一個示例,其並不構成對本申請涉及到此類對應關係的限定。
步驟404、根據M個音頻訊號的優先級對M個音頻訊號進行比特分配。
本申請可以根據當前可用比特數和M個音頻訊號的優先級進行比特分配,優先級越高的音頻訊號分配的比特數越多。當前可用比特數是指當前幀中編解碼器在進行比特分配前可以用於對第一音頻訊號集合中的M個音頻訊號進行比特分配的總的比特數。
在一種可能的實現方式中,可以根據第一音頻訊號的優先級確定第一音頻訊號的比特數占比,第一音頻訊號為M個音頻訊號中的任意一個,對當前可用比特數和第一音頻訊號的比特數占比計算乘積獲取第一音頻訊號的比特數。音頻訊號的優先級和比特數占比之間預先建立了對應關係,可以一個優先級對應一個比特數占比,也可以多個優先級對應一個比特數占比。基於該比特數占比,以及當前可用比特數,就可以計算獲取對應的音頻訊號可以被分配的比特數。例如,M為3,第一個音頻訊號的優先級為1,第二個音頻訊號的優先級為2,第三個音頻訊號的優先級為3,假設設定優先級1對應的占比為50%,優先級2對應的占比為30%,優先級3對應的占比為20%,當前可用比特數為100,那麼第一個音頻訊號分配的比特數為50,第二個音頻訊號分配的比特數為30,第三個音頻訊號分配的比特數為20。需要說明的是,在不同的音頻幀中,優先級對應的比特數是可以自適應調整的,對此不作具體限定。
在一種可能的實現方式中,可以根據設定的第二對應關係將與第一音頻訊號的優先級對應的比特數確定為第一音頻訊號的比特數,第二對應關係包括多個優先級和多個比特數之間的對應關係,其中,一個或多個優先級對應一個比特數。音頻訊號的優先級和比特數之間預先建立了對應關係,可以一個優先級對應一個比特數,也可以多個優先級對應一個比特數。基於該對應關係,只要獲取了音頻訊號的優先級,就可以獲取與其對應的比特數。例如,M為3,第一個音頻訊號的優先級為1,第二個音頻訊號的優先級為2,第三個音頻訊號的優先級為3,假設設定優先級1對應的比特數為50,優先級2對應的比特數為30,優先級3對應的比特數為20。
在一種可能的實現方式中,當音頻訊號的聲場分級參數不含有訊號分級參數時,且當聲場分級參數較小時,認為音頻訊號間聲場分級差異很小,此時音頻訊號間的比特分配可以根據編解碼過程中音頻訊號間的絕對能量比確定;當音頻訊號的聲場分級參數不含有訊號分級參數時,且當當音頻訊號的聲場分級參數較大時,認為音頻訊號間聲場分級差異很大,此時音頻訊號間的比特分配可以根據音頻訊號的聲場分級參數確定;其他情況下,音頻訊號的比特分配可以根據音頻訊號的比特分配因子確定。因此可以有以下公式:表示第i個音頻訊號的聲場分級參數,表示當前可用比特數,表示第i個音頻訊號分配的比特數。
需要說明的是,除上述描述的音頻訊號分配的比特數的確定方法外,還可以採用其他方法實現,本申請對此不作具體限定。
本申請根據當前幀中包括的多個音頻訊號的特徵及元數據中的音頻訊號的相關資訊,確定該多個音頻訊號的優先級,根據該優先級確定要分配給各個音頻訊號的比特數,既可以自適應音頻訊號的特徵,也可以針對不同音頻訊號匹配不同的編碼比特數,提高了音頻訊號的編解碼效率。
本申請在步驟402中從當前幀的T個音頻訊號中確定出了M個音頻訊號加入第一音頻訊號集合,對該M個音頻訊號採用步驟403和步驟404的方法,先確定各音頻訊號的優先級,再根據音頻訊號的優先級確定分配給各音頻訊號的比特數。當T>M時,第一音頻訊號集合中的音頻訊號並不是當前幀中的所有音頻訊號,可以將剩餘的音頻訊號加入第二音頻訊號集合,該第二音頻訊號集合包括N個音頻訊號,N=T-M。針對該N個音頻訊號,可以採用較為簡單的方法確定其分配的比特數,例如,對第二音頻訊號集合可用的總比特數對N求平均獲取每個音頻訊號的比特數,即將第二音頻訊號集合可用的總比特數平均分配給該集合中的N個音頻訊號。需要說明的是,第二音頻訊號集合還可以採用其他的方法獲取集合中的各音頻訊號的比特數,本申請對此不作具體限定。
另外,除上述步驟403中描述的音頻訊號的優先級確定方法外,本申請還提供了一種基於多種優先級確定方法的優先級融合方法,即針對同一音頻訊號,可以採用多種方法獲取其優先級,那麼如何確定該音頻訊號最終的優先級的方法。以下以第一音頻訊號為例進行描述,第一音頻訊號為上述M個音頻訊號中的任意一個。
在一種可能的實現方式中,根據第一音頻訊號和/或與第一音頻訊號對應的元數據獲取第一音頻訊號的第一參數集和第二參數集,第一參數集包括第一音頻訊號的上述相關參數中的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,第二參數集也包括第一音頻訊號的上述相關參數中的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個。第一參數集和第二參數集可以包含相同的參數,也可以包含不同的參數。根據第一參數集獲取第一音頻訊號的第一聲場分級參數。此處可以參照上述步驟403中確定第一音頻訊號集合中的M個音頻訊號的聲場分級參數的方法,也可以採用其他方法。根據第二參數集獲取第一音頻訊號的第二聲場分級參數。此處所採用的方法與計算第一聲場分級參數的方法不相同。根據第一聲場分級參數和第二聲場分級參數獲取第一音頻訊號的聲場分級參數。本申請中對於同一音頻訊號的兩種方法計算獲取的聲場分級參數,可以採用加權平均的方法,也可以採用直接求平均的方法,還可以採用取最大值或取最小值的方法確定該音頻訊號最終的聲場分級參數,對此不作具體限定。這樣可以實現音頻訊號的聲場分級參數的多樣性獲取,兼容各種策略下的計算方案。
在一種可能的實現方式中,獲取到第一音頻訊號的第一聲場分級參數和第二聲場分級參數後,可以根據第一聲場分級參數獲取第一音頻訊號的第一優先級。此時可以採用上述步驟403的方法獲取該優先級,也可以採用其他方法獲取。根據第二聲場分級參數獲取第一音頻訊號的第二優先級。此處所採用的的方法與計算第一優先級的方法不相同。根據第一優先級和第二優先級獲取第一音頻訊號的優先級。本申請中對於同一音頻訊號的兩種方法計算獲取的優先級,可以採用加權平均的方法,也可以採用求平均的方法,還可以採用取最大值或取最小值的方法確定該音頻訊號最終的優先級,對此不作具體限定。這樣可以實現音頻訊號的優先級的多樣性獲取,兼容各種策略下的計算方案。
當採用上述實施例的方法確定了當前幀的T個音頻訊號分配的比特數後,本申請可以根據T個音頻訊號的比特數生成碼流,該碼流包括T個第一標識、T個第二標識和T個第三標識,T個音頻訊號分別和T個第一標識、T個第二標識和T個第三標識對應,第一標識用於表示對應音頻訊號所屬的音頻訊號集合,第二標識用於表示對應音頻訊號的優先級,第三標識用於表示對應音頻訊號的比特數;將碼流發送給解碼設備。解碼設備收到碼流後,根據碼流中攜帶的T個第一標識、T個第二標識和T個第三標識執行上述音頻訊號的比特分配方法,確定T個音頻訊號的比特數。解碼設備也可以直接根據碼流中攜帶的T個第一標識、T個第二標識和T個第三標識確定T個音頻訊號所屬的音頻訊號集合、優先級及分配的比特數,進而對碼流進行解碼獲取T個音頻訊號。上述第一標識、第二標識和第三標識是在圖4所示的方法實施例的基礎上添加的標識資訊,以便於音頻訊號的編解碼端可以基於相同的方法對音頻訊號進行編碼或解碼。
圖7為本申請裝置實施例的結構示意圖,如圖7所示,該裝置可以應用於上述實施例中的編碼設備或解碼設備。本實施例的裝置可以包括:處理模組701和收發模組702。其中,處理模組701,用於獲取當前幀中的T個音頻訊號,T為正整數;根據所述T個音頻訊號確定第一音頻訊號集合,所述第一音頻訊號集合包括M個音頻訊號,M為正整數,所述T個音頻訊號包括所述M個音頻訊號,T≥M;確定所述第一音頻訊號集合中的所述M個音頻訊號的優先級;根據所述M個音頻訊號的優先級對所述M個音頻訊號進行比特分配。
在一種可能的實現方式中,所述處理模組701,具體用於獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數;根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級。
在一種可能的實現方式中,所述處理模組701,具體用於獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組701,具體用於獲取所述當前幀中的S組元數據,S為正整數,T≥S,所述S組元數據和所述T個音頻訊號對應,所述元數據用於描述對應的音頻訊號在空間聲場中的狀態。
在一種可能的實現方式中,所述處理模組701,具體用於根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組701,具體用於對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個加權平均獲取所述聲場分級參數;或者,對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個求平均獲取所述聲場分級參數;或者,將獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個作為所述聲場分級參數。
在一種可能的實現方式中,所述處理模組701,具體用於根據設定的第一對應關係將與所述第一音頻訊號的聲場分級參數對應的優先級確定為所述第一音頻訊號的優先級,所述第一對應關係包括多個聲場分級參數和多個優先級之間的對應關係,其中,一個或多個所述聲場分級參數對應一個所述優先級,所述第一音頻訊號為所述M個音頻訊號中的任意一個;或者,將所述第一音頻訊號的聲場分級參數作為所述第一音頻訊號的優先級;或者,根據設定的範圍閾值確定所述第一音頻訊號的聲場分級參數的所屬範圍,將與所述第一音頻訊號的聲場分級參數的所屬範圍對應的優先級確定為所述第一音頻訊號的優先級。
在一種可能的實現方式中,所述處理模組701,具體用於根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,優先級越高的音頻訊號分配的比特數越多。
在一種可能的實現方式中,所述處理模組701,具體用於根據第一音頻訊號的優先級確定所述第一音頻訊號的比特數占比,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據所述當前可用比特數和所述第一音頻訊號的比特數占比的乘積獲取所述第一音頻訊號的比特數。
在一種可能的實現方式中,所述處理模組701,具體用於根據第一音頻訊號的優先級從設定的第二對應關係中確定為所述第一音頻訊號的比特數,所述第二對應關係包括多個優先級和多個比特數之間的對應關係,其中,一個或多個所述優先級對應一個所述比特數,所述第一音頻訊號為所述M個音頻訊號中的任意一個。
在一種可能的實現方式中,所述處理模組701,具體用於將所述T個音頻訊號中預先指定的音頻訊號加入所述第一音頻訊號集合。
在一種可能的實現方式中,所述處理模組701,具體用於將所述S組元數據在所述T個音頻訊號中對應的音頻訊號加入所述第一音頻訊號集合;或者,將大於或等於設定的參與閾值的重要度參數對應的音頻訊號加入所述第一音頻訊號集合,所述元數據包括所述重要度參數,所述T個音頻訊號包括所述重要度參數對應的音頻訊號。
在一種可能的實現方式中,所述處理模組701,具體用於獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組701,具體用於根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;根據與所述第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
在一種可能的實現方式中,所述處理模組701,具體用於根據所述第一聲場分級參數獲取所述第一音頻訊號的第一優先級;根據所述第二聲場分級參數獲取所述第一音頻訊號的第二優先級;根據所述第一優先級和所述第二優先級獲取所述第一音頻訊號的優先級。
在一種可能的實現方式中,所述處理模組701,還用於根據所述M個音頻訊號所分配的比特數對所述M個音頻訊號進行編碼以獲取編碼碼流。
在一種可能的實現方式中,所述編碼碼流包括所述M個音頻訊號的比特數。
在一種可能的實現方式中,還包括:收發模組702,用於接收編碼碼流;所述處理模組701,還用於獲取所述M個音頻訊號各自的比特數;根據所述M個音頻訊號各自的比特數以及所述編碼碼流重建所述M個音頻訊號。
本實施例的裝置,可以用於執行圖4所示方法實施例的技術方案,其實現原理和技術效果類似,此處不再贅述。
圖8為本申請設備實施例的結構示意圖,如圖8所示,該設備可以是上述實施例中的編碼設備或解碼設備。本實施例的設備可以包括:處理器801和儲存裝置802,儲存裝置802\用於儲存一個或多個程序;當所述一個或多個程序被所述處理器801執行,使得所述處理器801實現如圖4所示方法實施例的技術方案。
在實現過程中,上述方法實施例的各步驟可以通過處理器中的硬體的積體邏輯電路或者軟體形式的指令完成。處理器可以是通用處理器、數位訊號處理器(digital signal processor, DSP)、特定應用積體電路(application-specific integrated circuit,ASIC)、場效可程式閘陣列 (field programmable gate array, FPGA)或其他可編程邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。本申請公開的方法的步驟可以直接體現為硬體編碼處理器執行完成,或者用編碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機儲存裝置,快閃記憶體、唯讀記憶體,可編程唯讀記憶體或者電可擦寫可編程儲存裝置、寄存器等本領域成熟的儲存媒體中。該儲存媒體位於儲存裝置,處理器讀取儲存裝置中的資訊,結合其硬體完成上述方法的步驟。
上述各實施例中提及的儲存裝置可以是揮發式記憶體或非揮發式記憶體,或可包括揮發式和非揮發式記憶體兩者。其中,非揮發式記憶體可以是唯讀記憶體(read-only memory,ROM)、可編程唯讀記憶體(programmable ROM,PROM)、可擦除可編程唯讀記憶體(erasable PROM,EPROM)、電可擦除可編程唯讀記憶體(electrically EPROM,EEPROM)或快閃記憶體。揮發式記憶體可以是隨機存取記憶體(random access memory,RAM),其用作外部高速快取記憶體。通過示例性但不是限制性說明,許多形式的RAM可用,例如靜態隨機存取記憶體(static RAM,SRAM)、動態隨機存取記憶體(dynamic RAM,DRAM)、同步動態隨機存取記憶體(synchronous DRAM,SDRAM)、雙倍數據速率同步動態隨機存取記憶體(double data rate SDRAM,DDR SDRAM)、增強型同步動態隨機存取記憶體(enhanced SDRAM,ESDRAM)、同步連接動態隨機存取記憶體(synchlink DRAM,SLDRAM)和直接記憶體總線隨機存取記憶體(direct rambus RAM,DR RAM)。應注意,本文描述的系統和方法的儲存裝置旨在包括但不限於這些和任意其它適合類型的儲存裝置。
本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本申請的範圍。
所屬領域的技術人員可以清楚地瞭解到,為描述的方便和簡潔,上述描述的系統、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的系統、裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些介面,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個電腦可讀取儲存媒體中。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台電腦設備(個人電腦,服務器,或者網路設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的儲存媒體包括:U盤、移動硬盤、唯讀記憶體(read-only memory,ROM)、隨機存取記憶體(random access memory,RAM)、磁碟或者光盤等各種可以儲存程序代碼的媒體。
以上所述,僅為本申請的具體實施方式,但本申請的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本申請揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本申請的保護範圍之內。因此,本申請的保護範圍應以所述請求項的保護範圍為準。
10:音頻編碼及解碼系統
12:源設備
13:鏈路
14:目的設備
16:音頻源
17:原始音頻數據
18:音頻預處理器
19:音頻
20:編碼器
21、31:經編碼的音頻數據
22、28:通訊介面
30:解碼器
32:音頻後處理器
33:經後處理的音頻數據
34:播放設備
41:麥克風
42:天線
43:處理器
44:儲存裝置
45:播放設備
46:處理單元
47:邏輯電路
200:音頻譯碼設備
210:入口介面
220:接收器
230:處理器
240:發射器
250:出口介面
260:儲存裝置
300:裝置、譯碼設備
310:處理器
330:儲存裝置
331:數據
333:操作系統
335:應用程序
350:總線系統
400:過程
401~404:步驟
701:處理模組
702:收發模組
801:處理器
802:儲存裝置
圖1A示例性地給出了本申請所應用的音頻編碼及解碼系統的示意性方塊圖。
圖1B是根據一示例性實施例的音頻譯碼系統的實例的說明圖。
圖2是本申請提供的音頻譯碼設備的結構示意圖。
圖3是根據一示例性實施例的裝置的簡化方塊圖。
圖4是用於實現本申請的一種音頻訊號的比特分配方法的流程示意圖。
圖5是音頻訊號的位置在空間聲場中的一個示例性的示意圖。
圖6是音頻訊號的優先級在空間聲場中的一個示例性的示意圖。
圖7為本申請裝置實施例的結構示意圖。
圖8為本申請設備實施例的結構示意圖。
400:過程
401~404:步驟
Claims (41)
- 如請求項1所述的方法,其中所述確定所述第一音頻訊號集合中的所述M個音頻訊號的優先級,包括:獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數;以及根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級。
- 如請求項2所述的方法,其中所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號 中的任意一個;以及根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項4所述的方法,其中所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參 數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;以及根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項3或5所述的方法,其中所述根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數,包括:對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個加權平均獲取所述聲場分級參數;或者,對獲取的所述運動分級參數、音量分級參數、傳播分級參 數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個求平均獲取所述聲場分級參數;或者,將獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個作為所述聲場分級參數。
- 如請求項2-5中任一項所述的方法,其中所述根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級,包括:根據設定的第一對應關係將與第一音頻訊號的聲場分級參數對應的優先級確定為所述第一音頻訊號的優先級,所述第一對應關係包括多個聲場分級參數和多個優先級之間的對應關係,其中,一個或多個所述聲場分級參數對應一個所述優先級,所述第一音頻訊號為所述M個音頻訊號中的任意一個;或者,將所述第一音頻訊號的聲場分級參數作為所述第一音頻訊號的優先級;或者,根據設定的多個範圍閾值確定所述第一音頻訊號的聲場分級參數的所屬範圍,將與所述第一音頻訊號的聲場分級參數的所屬範圍對應的優先級確定為所述第一音頻訊號的優先級。
- 如請求項1-5中任一項所述的方法,其中所述根據所述M個音頻訊號的優先級對所述M個音頻訊號進行比特分配,包括:根據當前可用比特數和所述M個音頻訊號的優先級進行比 特分配,優先級越高的音頻訊號分配的比特數越多。
- 如請求項8所述的方法,其中所述根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,包括:根據第一音頻訊號的優先級確定所述第一音頻訊號的比特數占比,所述第一音頻訊號為所述M個音頻訊號中的任意一個;以及根據所述當前可用比特數和所述第一音頻訊號的比特數占比的乘積獲取所述第一音頻訊號的比特數。
- 如請求項8所述的方法,其中所述根據當前可用比特數和所述M個音頻訊號的優先級進行比特分配,包括:根據第一音頻訊號的優先級從設定的第二對應關係中確定所述第一音頻訊號的比特數,所述第二對應關係包括多個優先級和多個比特數之間的對應關係,其中,一個或多個所述優先級對應一個所述比特數,所述第一音頻訊號為所述M個音頻訊號中的任意一個。
- 如請求項1-5中任一項所述的方法,其中所述根據所述T個音頻訊號確定第一音頻訊號集合,包括:將所述T個音頻訊號中預先指定的音頻訊號加入所述第一音頻訊號集合。
- 如請求項4所述的方法,其中所述根據所述T個音頻訊號確定第一音頻訊號集合,包括:將所述S組元數據在所述T個音頻訊號中對應的音頻訊號 加入所述第一音頻訊號集合;或者,將大於或等於設定的參與閾值的重要度參數對應的音頻訊號加入所述第一音頻訊號集合,所述元數據包括所述重要度參數,所述T個音頻訊號包括所述重要度參數對應的音頻訊號。
- 如請求項2所述的方法,其中所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;以及根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數 用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項4所述的方法,其中所述獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數,包括:根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;根據與所述第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數; 以及根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項13或14所述的方法,其中所述根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級,包括:根據所述第一聲場分級參數獲取所述第一音頻訊號的第一優先級;根據所述第二聲場分級參數獲取所述第一音頻訊號的第二優先級;以及根據所述第一優先級和所述第二優先級獲取所述第一音頻訊號的優先級。
- 一種音頻訊號的編碼方法,其中執行完請求項1-15中任一項所述的音頻訊號的比特分配方法之後,還包括:根據所述M個音頻訊號所分配的比特數對所述M個音頻訊號進行編碼以獲取編碼碼流。
- 如請求項16所述的音頻訊號的編碼方法,其中所述編碼碼流包括所述M個音頻訊號的比特數。
- 一種音頻訊號的解碼方法,其中執行完請求項1-15中任一項所述的音頻訊號的比特分配方法之後,還包括:接收編碼碼流;執行如請求項1-15中任一項所述的音頻訊號的比特分配方法獲取所述M個音頻訊號各自的比特數;以及根據所述M個音頻訊號各自的比特數以及所述編碼碼流重建所述M個音頻訊號。
- 如請求項19所述的裝置,其中所述處理模組,具體用於獲取所述M個音頻訊號中每個音頻訊號的聲場分級參數;根據所述M個音頻訊號中每個音頻訊號的聲場分級參數確定所述M個音頻訊號的優先級。
- 請求項20所述的裝置,其中所述處理模組,具體用於獲取第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項22所述的裝置,其中所述處理模組,具體用於根據與第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中音量的大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項21或23所述的裝置,其中所述處理模組,具體用於對獲取的所述運動分級參數、音量分級參數、傳播 分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個加權平均獲取所述聲場分級參數;或者,對獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的多個求平均獲取所述聲場分級參數;或者,將獲取的所述運動分級參數、音量分級參數、傳播分級參數、擴散分級參數、狀態分級參數、排序分級參數和訊號分級參數中的一個作為所述聲場分級參數。
- 如請求項20-23中任一項所述的裝置,其中所述處理模組,具體用於根據設定的第一對應關係將與第一音頻訊號的聲場分級參數對應的優先級確定為所述第一音頻訊號的優先級,所述第一對應關係包括多個聲場分級參數和多個優先級之間的對應關係,其中,一個或多個所述聲場分級參數對應一個所述優先級,所述第一音頻訊號為所述M個音頻訊號中的任意一個;或者,將所述第一音頻訊號的聲場分級參數作為所述第一音頻訊號的優先級;或者,根據設定的多個範圍閾值確定所述第一音頻訊號的聲場分級參數的所屬範圍,將與所述第一音頻訊號的聲場分級參數的所屬範圍對應的優先級確定為所述第一音頻訊號的優先級。
- 如請求項19-23中任一項所述的裝置,其中所述處理模組,具體用於根據當前可用比特數和所述M個音頻訊號的 優先級進行比特分配,優先級越高的音頻訊號分配的比特數越多。
- 如請求項26所述的裝置,其中所述處理模組,具體用於根據第一音頻訊號的優先級確定所述第一音頻訊號的比特數占比,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據所述當前可用比特數和所述第一音頻訊號的比特數占比的乘積獲取所述第一音頻訊號的比特數。
- 如請求項26所述的裝置,其中所述處理模組,具體用於根據第一音頻訊號的優先級從設定的第二對應關係中確定所述第一音頻訊號的比特數,所述第二對應關係包括多個優先級和多個比特數之間的對應關係,其中,一個或多個所述優先級對應一個所述比特數,所述第一音頻訊號為所述M個音頻訊號中的任意一個。
- 如請求項19-23中任一項所述的裝置,其中所述處理模組,具體用於將所述T個音頻訊號中預先指定的音頻訊號加入所述第一音頻訊號集合。
- 如請求項22所述的裝置,其中所述處理模組,具體用於將所述S組元數據在所述T個音頻訊號中對應的音頻訊號加入所述第一音頻訊號集合;或者,將大於或等於設定的參與閾值的重要度參數對應的音頻訊號加入所述第一音頻訊號集合,所述元數據包括所述重要度參數,所述T個音頻訊號包括所述重要度參數對應的音頻訊號。
- 如請求項20所述的裝置,其中所述處理模組,具體用於獲取第一音頻信的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項22所述的裝置,其中所述處理模組,具體用於根據與第一音頻訊號對應的元數據,或者根據所述第一 音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個,所述第一音頻訊號為所述M個音頻訊號中的任意一個;根據與所述第一音頻訊號對應的元數據,或者根據所述第一音頻訊號以及與所述第一音頻訊號對應的元數據獲取所述第一音頻訊號的狀態分級參數、排序分級參數和訊號分級參數中的一個或多個;根據獲取的所述運動分級參數、音量分級參數、傳播分級參數和擴散分級參數中的一個或多個獲取所述第一音頻訊號的第一聲場分級參數;根據獲取的所述狀態分級參數、排序分級參數和訊號分級參數中的一個或多個獲取所述第一音頻訊號的第二聲場分級參數;根據所述第一聲場分級參數和所述第二聲場分級參數獲取所述第一音頻訊號的聲場分級參數;其中,所述運動分級參數用於描述所述第一音頻訊號在空間聲場中單位時間內移動快慢,所述音量分級參數用於描述所述第一音頻訊號在空間聲場中回放時的音量大小,所述傳播分級參數用於描述所述第一音頻訊號在空間聲場中回放時的傳播範圍的大小,所述擴散分級參數用於描述所述第一音頻訊號在空間聲場中擴散範圍的大小,所述狀態分級參數用於描述所述第一音頻訊號在空間聲場中聲源分割的大小,所述排序分級參數用於描述所述第一音頻訊號在空間聲場中優先排序的大小,所述訊號分級參數用於描述所述第一音頻訊號編碼過程中能量的大小。
- 如請求項31或32所述的裝置,其中所述處理模組,具體用於根據所述第一聲場分級參數獲取所述第一音頻訊號的第一優先級;根據所述第二聲場分級參數獲取所述第一音頻訊號的第二優先級;根據所述第一優先級和所述第二優先級獲取所述第一音頻訊號的優先級。
- 如請求項19-23中任一項所述的裝置,其中所述處理模組,還用於根據所述M個音頻訊號所分配的比特數對所述M個音頻訊號進行編碼以獲取編碼碼流。
- 如請求項34所述的裝置,其中所述編碼碼流包括所述M個音頻訊號的比特數。
- 如請求項34所述的裝置,其中還包括:收發模組,用於接收編碼碼流;所述處理模組,還用於獲取所述M個音頻訊號各自的比特數;根據所述M個音頻訊號各自的比特數以及所述編碼碼流重建所述M個音頻訊號。
- 一種設備,其中包括:一個或多個處理器;以及儲存裝置,用於儲存一個或多個程序;當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如請求項1-18中任一項所述的方法。
- 一種電腦可讀儲存媒體,其中包括電腦程序,所述電腦程序在電腦上被執行時,使得所述電腦執行請求項1-18中任一項所述的方法。
- 一種電腦可讀儲存媒體,其中包括根據如請求項16所述的方法獲取的編碼碼流。
- 一種編碼裝置,其中包括處理器和通訊介面,所述處理器通過所述通訊介面讀取儲存電腦程序,所述電腦程序包括程序指令,所述處理器用於調用所述程序指令,執行如請求項1至18中任一項所述的方法。
- 一種編碼裝置,其中包括處理器和儲存裝置,所述處理器用於執行請求項16所述的方法,所述儲存裝置用於存放所述編碼碼流。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010368424.9 | 2020-04-30 | ||
CN202010368424.9A CN113593585A (zh) | 2020-04-30 | 2020-04-30 | 音频信号的比特分配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202143216A TW202143216A (zh) | 2021-11-16 |
TWI773286B true TWI773286B (zh) | 2022-08-01 |
Family
ID=78237842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110115467A TWI773286B (zh) | 2020-04-30 | 2021-04-29 | 音頻訊號的比特分配方法和裝置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11900950B2 (zh) |
EP (1) | EP4131259A4 (zh) |
JP (1) | JP2023523081A (zh) |
KR (1) | KR20230002968A (zh) |
CN (1) | CN113593585A (zh) |
BR (1) | BR112022021882A2 (zh) |
TW (1) | TWI773286B (zh) |
WO (1) | WO2021218558A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2624890A (en) * | 2022-11-29 | 2024-06-05 | Nokia Technologies Oy | Parametric spatial audio encoding |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200915300A (en) * | 2007-09-26 | 2009-04-01 | Fraunhofer Ges Forschung | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
CN101950562A (zh) * | 2010-11-03 | 2011-01-19 | 武汉大学 | 基于音频关注度的分级编码方法及系统 |
CN103928030A (zh) * | 2014-04-30 | 2014-07-16 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
TW201907391A (zh) * | 2017-05-18 | 2019-02-16 | 美商高通公司 | 用於高階立體環繞聲之音訊資料之分層中間壓縮 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
SG49883A1 (en) * | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
CN101217037B (zh) * | 2007-01-05 | 2011-09-14 | 华为技术有限公司 | 对音频信号的编码速率进行源控的方法和系统 |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US9754595B2 (en) * | 2011-06-09 | 2017-09-05 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding 3-dimensional audio signal |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
US9854377B2 (en) * | 2013-05-29 | 2017-12-26 | Qualcomm Incorporated | Interpolation for decomposed representations of a sound field |
JP6288100B2 (ja) | 2013-10-17 | 2018-03-07 | 株式会社ソシオネクスト | オーディオエンコード装置及びオーディオデコード装置 |
US9564136B2 (en) | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
KR101968456B1 (ko) | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
US10854209B2 (en) * | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
-
2020
- 2020-04-30 CN CN202010368424.9A patent/CN113593585A/zh active Pending
-
2021
- 2021-03-31 BR BR112022021882A patent/BR112022021882A2/pt unknown
- 2021-03-31 WO PCT/CN2021/084578 patent/WO2021218558A1/zh unknown
- 2021-03-31 EP EP21797604.2A patent/EP4131259A4/en active Pending
- 2021-03-31 JP JP2022565956A patent/JP2023523081A/ja active Pending
- 2021-03-31 KR KR1020227040823A patent/KR20230002968A/ko active Search and Examination
- 2021-04-29 TW TW110115467A patent/TWI773286B/zh active
-
2022
- 2022-10-28 US US17/976,474 patent/US11900950B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200915300A (en) * | 2007-09-26 | 2009-04-01 | Fraunhofer Ges Forschung | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
EP2210427B1 (en) * | 2007-09-26 | 2015-05-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for extracting an ambient signal |
CN101950562A (zh) * | 2010-11-03 | 2011-01-19 | 武汉大学 | 基于音频关注度的分级编码方法及系统 |
CN103928030A (zh) * | 2014-04-30 | 2014-07-16 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
TW201907391A (zh) * | 2017-05-18 | 2019-02-16 | 美商高通公司 | 用於高階立體環繞聲之音訊資料之分層中間壓縮 |
Also Published As
Publication number | Publication date |
---|---|
EP4131259A4 (en) | 2023-09-20 |
KR20230002968A (ko) | 2023-01-05 |
US20230133252A1 (en) | 2023-05-04 |
CN113593585A (zh) | 2021-11-02 |
JP2023523081A (ja) | 2023-06-01 |
WO2021218558A1 (zh) | 2021-11-04 |
BR112022021882A2 (pt) | 2023-01-24 |
EP4131259A1 (en) | 2023-02-08 |
US11900950B2 (en) | 2024-02-13 |
TW202143216A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11843814B2 (en) | Bitrate optimizations for immersive multimedia streaming | |
TWI819344B (zh) | 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質 | |
US11356796B2 (en) | Priority-based soundfield coding for virtual reality audio | |
WO2022110723A1 (zh) | 一种音频编解码方法和装置 | |
TWI773286B (zh) | 音頻訊號的比特分配方法和裝置 | |
WO2022095871A1 (zh) | 一种视频处理方法、视频处理装置、智能设备及存储介质 | |
CN117219096A (zh) | 一种在实时云渲染环境下多用户语音空间音频的实现方法 | |
US20230145725A1 (en) | Multi-channel audio signal encoding and decoding method and apparatus | |
WO2022262576A1 (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
WO2022116822A1 (zh) | 沉浸式媒体的数据处理方法、装置和计算机可读存储介质 | |
CN116980392A (zh) | 媒体流处理方法、装置、计算机设备和存储介质 | |
KR20240001226A (ko) | 3차원 오디오 신호 코딩 방법, 장치, 및 인코더 | |
WO2022251846A2 (en) | Audio encoding based on link data | |
CN111508507B (zh) | 一种音频信号处理方法及装置 | |
US11729570B2 (en) | Spatial audio monauralization via data exchange | |
WO2023212880A1 (zh) | 音频处理方法、装置及存储介质 | |
WO2023051368A1 (zh) | 编解码方法、装置、设备、存储介质及计算机程序产品 | |
WO2022262750A1 (zh) | 音频渲染系统、方法和电子设备 | |
WO2022237851A1 (zh) | 一种音频编码、解码方法及装置 | |
US20240119946A1 (en) | Audio rendering system and method and electronic device | |
WO2022242534A1 (zh) | 编解码方法、装置、设备、存储介质及计算机程序 | |
TWI816313B (zh) | 虛擬揚聲器集合確定方法和裝置 | |
GB2594942A (en) | Capturing and enabling rendering of spatial audio signals | |
GB2607934A (en) | Apparatus, methods and computer programs for obtaining spatial metadata | |
CN105872018A (zh) | 一种医群通语音系统 |