TWI578308B - 音訊信號頻譜之頻譜係數的編碼技術 - Google Patents
音訊信號頻譜之頻譜係數的編碼技術 Download PDFInfo
- Publication number
- TWI578308B TWI578308B TW103136011A TW103136011A TWI578308B TW I578308 B TWI578308 B TW I578308B TW 103136011 A TW103136011 A TW 103136011A TW 103136011 A TW103136011 A TW 103136011A TW I578308 B TWI578308 B TW I578308B
- Authority
- TW
- Taiwan
- Prior art keywords
- spectral
- spectrum
- decoder
- coefficients
- spectral coefficients
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims description 337
- 238000001228 spectrum Methods 0.000 title claims description 178
- 230000005236 sound signal Effects 0.000 title claims description 50
- 238000000034 method Methods 0.000 claims description 35
- 238000012546 transfer Methods 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000011664 signaling Effects 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000007774 longterm Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000001965 increasing effect Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims 1
- 230000000737 periodic effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 41
- 238000013507 mapping Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 230000006978 adaptation Effects 0.000 description 15
- 238000009795 derivation Methods 0.000 description 11
- 238000007493 shaping process Methods 0.000 description 11
- 230000001953 sensory effect Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本申請案是關於可用於(例如)各種基於變換之音訊編碼解碼器中之音訊信號之頻譜的頻譜係數之編碼方案。
基於上下文之算術編碼為無雜訊地編碼基於變換之編碼器的頻譜係數之有效方式[1]。上下文利用了頻譜係數與位於該頻譜係數之鄰域中之已編碼係數之間的相互資訊。上下文在編碼器側及解碼器側兩者處可用,且並不需要傳輸任何額外資訊。以此方式,基於上下文之熵編碼有可能提供優於無記憶熵編碼之較高增益。然而,實際上,上下文之設計歸因於記憶體要求、計算複雜性及對頻道錯誤的強健性以及其他因素而受到嚴重約束。此等約束限制了基於上下文之熵編碼的效率,且造成較低編碼增益,特別是對於為了利用信號之諧波結構上下文必須過度受限的音調信號而言。
此外,在基於變換之低延遲音訊編碼中,將低重疊窗用以減小演算法延遲。作為直接結果,MDCT上之洩漏對於音調信號為重要的,且導致較高量化雜訊。可藉由將變換與頻域中之預測組合(如對於MPEG2/4-AAC所進行)[2]或與時域中的預測組合[3]來處置音調信號。
將有利的是具有可增加編碼效率的現成編碼概念。因此,本發明之一目標為提供一種可增加編碼效率的針對音訊信號之頻譜之頻譜係數的編碼概念。此目標係藉由申請中的獨立請求項之標的來達成。
本申請案之基本發現為,可藉由以下操作來增加編碼音訊信號之頻譜之頻譜係數的編碼效率:藉由熵編碼/解碼來編碼/解碼當前待編碼/解碼之頻譜係數,且在這樣做時,以上下文適應性方式取決於先前編碼/解碼之頻譜係數執行熵編碼/解碼,同時取決於關於頻譜之形狀的資訊而調整先前編碼/解碼之頻譜係數與當前編碼/解碼頻譜係數之間的相對頻譜距離。關於頻譜之形狀的資訊可包含音訊信號之音高或週期性之度量、音訊信號之頻譜的諧波間距離及/或頻譜之頻譜包絡的共振峰及/或谷之相對位置的度量,且基於此認識,可調適被用以形成當前待編碼/解碼之頻譜係數之上下文的頻譜鄰域以適應於頻譜的因此判定之形狀,藉此增強熵編碼效率。
10‧‧‧頻譜係數編碼器
12‧‧‧頻譜圖
14‧‧‧頻譜係數
14'‧‧‧參考標誌
16‧‧‧時刻
18‧‧‧音訊信號
20‧‧‧頻譜
22‧‧‧時間框
24‧‧‧窗函數/變換窗
26‧‧‧解碼次序
28‧‧‧相對頻譜距離/距離D
30‧‧‧資料串流/顯式發信號
40‧‧‧頻譜係數解碼器
42、52‧‧‧機率分佈估計導出器
44‧‧‧熵編碼引擎
54‧‧‧熵解碼引擎
56‧‧‧機率分佈估計
60‧‧‧度量
62‧‧‧音訊信號的頻譜
64‧‧‧預強調之版本
66‧‧‧點鏈線/頻譜包絡
68‧‧‧雙點鏈線/合成濾波函數
70‧‧‧共振峰
72‧‧‧谷
74‧‧‧頻譜距離/共振峰間距離
80‧‧‧雙向箭頭/調適
81‧‧‧上下文範本
82‧‧‧純量函數
83‧‧‧參考標誌編碼側處之導出
84‧‧‧參考標誌/解碼側處之導出
100‧‧‧基於變換的音訊編碼器
102‧‧‧頻譜電腦
104‧‧‧解碼器
106‧‧‧時域電腦
108‧‧‧變換器
110‧‧‧頻譜成形器
112‧‧‧未經成形頻譜
114、140‧‧‧縮放因數
116、122‧‧‧縮放因數判定器
118‧‧‧線性預測係數資訊
124‧‧‧頻譜成形器
126‧‧‧逆變換器
128‧‧‧預強調濾波器
130‧‧‧預強調版本/入埠信號
132‧‧‧LP(線性預測)分析器
134、142‧‧‧線性預測係數至縮放因數轉換器
136‧‧‧LTP(長期預測)濾波器
138‧‧‧LTE殘餘版本
144‧‧‧重疊相加級
146‧‧‧LTP後期濾波器
148‧‧‧取消強調濾波器
200‧‧‧TD(TD=時域)模組
202‧‧‧殘餘及成形時域信號
204‧‧‧模組
206‧‧‧音高估計模組
208‧‧‧音高資訊解碼器
210‧‧‧解量化器
212‧‧‧FD(頻域)逆雜訊成形/預測模組
214‧‧‧逆變換器
216‧‧‧時域逆雜訊成形/預測模組
f‧‧‧頻率軸
o‧‧‧先前經解碼/編碼頻譜係數
t‧‧‧時間軸/上下文索引
x‧‧‧當前頻譜係數
X‧‧‧高度諧波頻譜
有利實施方案係附屬請求項之標的,且下文參照諸圖描述本申請案的較佳實施例,其中圖1展示說明頻譜係數編碼器及其在編碼音訊信號之頻譜之頻譜係數時的操作模式的示意圖;圖2展示說明與圖1之頻譜係數編碼器配合的頻譜係數解碼器之示意圖;圖3展示根據一實施例的圖1之頻譜係數編碼器之可能內部結構的方塊圖;圖4展示根據一實施例的圖2之頻譜係數解碼器之可能內部結構的方塊圖;圖5示意性地指示頻譜係數待編碼/解碼的頻譜之圖形,以便說明取決於音訊信號之音高或週期性的度量或諧波間距離之度量的對相對頻譜距離的調適;圖6展示說明頻譜之示意圖,頻譜之頻譜係數將根據一實施例編碼/解碼,在該實施例中,頻譜係根據基於LP之感官加權合成濾波器(亦即,其逆濾波器)而被頻譜成形,同時說明了根據一實施例的取決於共振峰間距離度量的對相對頻譜距離之調適;圖7示意性地說明頻譜之一部分,以便說明圍繞當前待編碼/解碼之頻譜係數的上下文範本,及根據一實施例的取決於關於頻譜形狀之資訊的對上下文範本頻譜展散之調適;圖8展示根據一實施例的說明使用純量函數自上下文範本81之參考頻譜係數的一或多個值之映射以便導出待用
於編碼/解碼當前頻譜係數的機率分佈估計之示意圖;圖9a示意性地說明使用隱式發信以便在編碼器與解碼器之間同步相對頻譜距離之調適;圖9b展示一示意圖,其說明使用顯式發信以便在編碼器與解碼器之間同步相對頻譜距離之調適;圖10a展示根據一實施例的基於變換之音訊編碼器的方塊圖;圖10b展示與圖10a之編碼器配合的基於變換之音訊解碼器的方塊圖;圖11a展示根據一實施例的使用頻域頻譜成形的基於變換之音訊編碼器的方塊圖;圖11b展示與圖11a之編碼器配合的基於變換之音訊解碼器的方塊圖;圖12a展示根據一實施例的基於線性預測之變換編碼激發音訊編碼器的方塊圖;圖12b展示與圖12a之編碼器配合的基於線性預測之變換編碼激發音訊解碼器;圖13展示根據其他實施例的基於變換之音訊編碼器的方塊圖;圖14展示與圖13之實施例配合的基於變換之音訊解碼器的方塊圖;圖15展示說明習知上下文或上下文範本的示意圖,該習知上下文或上下文範本覆蓋當前待編碼/解碼頻譜係數之鄰域;
圖16a至圖16c展示根據本申請案之實施例的經修改之上下文範本組態或經映射上下文;圖17示意性地說明諧波頻譜之圖形,以便說明針對諧波頻譜使用圖16a至圖16c中之任一者的經映射上下文的優於圖15之上下文範本定義的優點;圖18展示根據一實施例的用於最佳化上下文映射之相對頻譜距離D的演算法之流程圖。
圖1展示根據一實施例的頻譜係數編碼器10。編碼器經組配以編碼音訊信號之頻譜的頻譜係數。圖1說明呈頻譜圖12之形式的序列頻譜。為了更精準,頻譜係數14被說明為沿著時間軸t及頻率軸f按頻譜時間順序配置的方框。雖然將有可能頻譜時間解析度保持恆定,但圖1說明頻譜時間解析度可隨時間發生變化,其中一個此時刻在圖1中說明於16處。此頻譜圖12可為在不同時刻應用至音訊信號18的諸如摺疊變換(諸如,臨界取樣變換,諸如MDCT或某其他實值臨界取樣變換)的頻譜分解變換之結果。因此頻譜圖12可由頻譜係數編碼器10以由各自屬於同一時刻之一系列變換係數組成的頻譜20之形式接收到。頻譜20因此表示頻譜圖之頻譜切塊,且在圖1中說明為頻譜圖12的個別行。每一頻譜由一系列變換係數14構成,且已使用(例如)某窗函數24自音訊信號18之對應時間框22導出。詳言之,時間框22依序配置於前述時刻處,且與頻譜20之時間序列相關
聯。如圖1中所說明,時間框22可彼此重疊,正如對應變換窗24也可彼此重疊一般。即,如本文中所使用,「頻譜」指示屬於同一時刻的頻譜係數,且因此係頻率分解。「頻譜圖」為由連續頻譜構成的時間-頻率分解,其中「頻譜(Spectra)」為頻譜(Spectrum)的複數形式。但是,有時同義地使用「頻譜」與頻譜圖。在原始信號在時域中且變換係頻率變換的情況下,同義地使用「變換係數」與「頻譜係數」。
如剛剛所概述,頻譜係數編碼器10係用於編碼音訊信號18之頻譜圖12的頻譜係數14,且為此,編碼器可(例如)應用預定編碼/解碼次序,該預定編碼/解碼次序係沿著(例如)在一個頻譜20內自低頻率至高頻率頻譜掃描頻譜係數14的頻譜時間路徑遍歷(例如)頻譜係數14,且接著對時間上接續之頻譜20的頻譜係數繼續(如圖1中於26處概述)。
以下文更詳細地概述之方式,編碼器10經組配以藉由以上下文適應性方式取決於使用圖1中之小圓例示性地指示的一或多個先前編碼之頻譜係數進行熵編碼來編碼使用圖1中之小叉號指示的當前待編碼頻譜係數。詳言之,編碼器10經組配以便取決於關於頻譜之形狀的資訊而調整先前編碼之頻譜係數與當前編碼之頻譜係數之間的相對頻譜距離。至於相依性及關於頻譜之形狀的資訊,下文中陳述細節,以及關於由取決於剛剛提及之資訊來調適相對頻譜距離28產生的優點之考慮事項。
換言之,頻譜係數編碼器10將頻譜係數14依序編碼至資料串流30中。如下文將更詳細地概述,頻譜係數編
碼器10可為基於變換之編碼器的部分,該基於變換之編碼器除頻譜係數14外亦將其他資訊編碼至資料串流30中,使得資料串流30允許實現音訊信號18的重建構。
圖2展示與圖1之頻譜係數編碼器10配合的頻譜係數解碼器40。頻譜係數解碼器40之功能性實質上係圖1之頻譜係數編碼器10的反向功能性:頻譜係數解碼器40使用(例如)解碼次序26依序地解碼頻譜12的頻譜係數14。在藉由熵解碼來解碼使用圖2中之小叉號例示性指示的當前待解碼頻譜係數時,頻譜係數解碼器40以上下文適應性方式取決於亦由圖2中之小圓指示的一或多個先前解碼頻譜係數執行熵解碼。在這樣做時,頻譜係數解碼器40取決於關於頻譜12之形狀的前述資訊而調整先前解碼頻譜係數與當前待解碼頻譜係數之間的相對頻譜距離28。以與上文所指示之方式相同的方式,頻譜係數解碼器40可為經組配以自資料串流30重建構音訊信號18的基於變換之解碼器的部分,頻譜係數解碼器40使用熵解碼自資料串流30解碼頻譜係數14。後面的基於變換之解碼器可作為重建構之部分而使頻譜12經受諸如逆摺疊變換的逆變換,該逆變換(例如)導致重建構重疊窗化時間框22之序列,該重建構藉由重疊與相加程序移除(例如)由頻譜分解變換產生的映頻混擾。
如下文將更詳細地描述,由取決於關於頻譜12之形狀的資訊調整相對頻譜距離28產生的優點依賴於改良用以熵編碼/解碼當前頻譜係數x之機率分佈估計的能力。機率分佈估計愈好,則熵編碼愈有效,亦即,壓縮程度更
高。「機率分佈估計」為當前頻譜係數14之實際機率分佈的估計,亦即,向當前頻譜係數14可採取的值之域中之每一值指派機率的函數之估計。歸因於距離28之調適對頻譜12之形狀的相依性,可判定機率分佈估計以便更緊密地對應於實際機率分佈,此係由於利用關於頻譜12之形狀之資訊使得能夠自當前頻譜係數x的頻譜鄰域導出機率分佈估計,此情形允許對當前頻譜係數x之機率分佈的更準確估計。下文呈現此方面之細節,以及關於頻譜12之形狀之資訊的實例。
在繼續論述關於頻譜12之形狀之前述資訊的特定實例之前,圖3及圖4分別展示頻譜係數編碼器10及頻譜係數解碼器40的可能內部結構。詳言之,如圖3中所展示,頻譜係數編碼器10可由機率分佈估計導出器42及熵編碼引擎44構成,同樣地,頻譜係數解碼器40可由機率分佈估計導出器52及熵解碼引擎54構成。機率分佈估計導出器42及52以相同方式操作:其在一或多個先前經解碼/編碼頻譜係數o之值的基礎上導出機率分佈估計56以用於熵解碼/編碼當前頻譜係數x。詳言之,熵編碼引擎44/熵解碼引擎54自導出器42/52接收機率分佈估計,且相應地執行關於當前頻譜係數x的熵編碼/解碼。
熵編碼引擎44/熵解碼引擎54可將(例如)諸如霍夫曼編碼之可變長度編碼用於編碼/解碼當前頻譜係數x,且在此方面,引擎44/54可將不同VLC(可變長度編碼)表用於不同機率分佈估計56。替代地,引擎44/54可對於當前頻
譜係數x使用算術編碼/解碼,其中機率分佈估計56控制著表示算術編碼/解碼引擎44/54之內部狀態的當前機率間隔的機率間隔再分,每一部分間隔被指派給來自可由當前頻譜係數x採取的目標值範圍的不同可能值。如下文將更詳細地概述,熵編碼引擎44及熵解碼引擎54可使用逸出機制,以便將頻譜係數14之總值範圍映射於有限之整數值間隔上,亦即,諸如[0...2N-1]的目標範圍上。目標範圍(亦即,{0,...,2N-1})之整數值集合連同逸出符號{esc}一起定義算術編碼/解碼引擎44/54的符號字母表,亦即{0,...,2N-1,esc}。舉例而言,熵編碼引擎44使入埠頻譜係數x按需要的頻度經受除以2(若有的話),以便將頻譜係數x帶入至前述目標間隔[0...2N-1]中,同時對於每一除法,將逸出符號編碼至資料串流30中,繼之以算術地編碼餘數-或在不必進行除法的狀況下將原始頻譜值編碼-至資料串流30中。熵解碼引擎54又將實施逸出機制如下:熵解碼引擎54將來自資料串流30之當前變換係數x解碼為0、1或1個以上逸出符號esc繼之以非逸出符號的序列,亦即,解碼為序列{a},{esc,a},{esc,esc,a},...,中的一者,其中a指示非逸出符號。熵解碼引擎54將藉由算術地解碼非逸出符號而獲得(例如)在目標間隔[0...2N-1]內的值a,且將藉由將當前頻譜係數之值計算為等於a+逸出符號數目的兩倍來導出x的係數值。
關於機率分佈估計56之使用及機率分佈估計56在用以表示當前頻譜係數x之符號序列上的應用,存在不同可能性:可(例如)將機率分佈估計應用至資料串流30內輸送
的任何符號,亦即,非逸出符號以及任何逸出符號(若有的話)以獲得頻譜係數x。替代地,機率分佈估計56僅用於0或更多個逸出符號繼之以非逸出符號之序列的第一或前兩個或前n<N個符號,針對符號序列的任何後續符號使用(例如)諸如相等機率分佈的某預設機率分佈估計。
圖5展示來自頻譜圖12之例示性頻譜20。詳言之,頻譜係數之量值係沿著y軸以任意單位繪製於圖5中,而水平x軸對應於以任意單位計的頻率。如已陳述,圖5中之頻譜20對應於在某時刻在音訊信號之頻譜圖上的頻譜切塊,其中頻譜圖12由此等頻譜20的序列構成。圖5亦說明當前頻譜係數x的頻譜位置。
如下文將更詳細地概述,雖然頻譜20可為音訊信號之未經加權頻譜,但根據下文進一步概述的實施例,例如,頻譜20已使用對應於感官合成濾波函數之逆函數的轉移函數而進行感官加權。然而,本申請案並不限於下文進一步概述的特定狀況。
在任何狀況下,圖5展示沿著頻率軸線具有某週期性的頻譜20,該頻譜展現了在頻譜中的局部最大值及最小值之沿著頻率方向的差不多等距配置。僅出於說明目的,圖5展示如由頻譜之局部最大值之間的頻譜距離定義的音訊信號之音高或週期性的度量60,當前頻譜係數x定位於該等局部最大值之間。自然地,度量60可被以不同方式定義並判定,諸如局部最大值及/或局部最小值之間的平均音高,或等於以時域信號18之自動相關函數量測之時間延遲
最大值的頻率距離。
根據實施例,度量60為關於頻譜之形狀的資訊,或包含該資訊。編碼器10及解碼器40(或為了更精準,機率分佈估計器導出器42/52)可(例如)取決於此度量60而調整先前頻譜係數o與當前頻譜係數x之間的相對頻譜距離。舉例而言,相對頻譜距離28可取決於度量60而發生變化,使得距離28隨著度量60增加而增加。舉例而言,可有利的是,設定距離28等於度量60或係度量60的整數倍。
如下文將更詳細地描述,存在關於將關於頻譜12之形狀的資訊提供給解碼器之方式的不同可能性。一般而言,諸如度量60之此資訊可顯式地發信至解碼器,其中僅編碼器20或機率分佈估計器導出器42實際上判定關於頻譜之形狀的資訊;或關於頻譜形狀之資訊的判定係基於頻譜之先前解碼之部分在編碼器及解碼器側處並行執行;或可自已寫入於位元串流中的另一資訊推斷出。
換言之,度量60亦可解譯為「諧波間距離的度量」,此係由於頻譜中之前述局部最大值或峰可相對於彼此形成諧波。
圖6提供關於頻譜之形狀之資訊的另一實例,可排它地或連同諸如先前所描述之度量60的另一度量基於該資訊調整頻譜距離28。詳言之,圖6說明例示性情況,其中使用感官加權之合成濾波函數之逆函數來加權由編碼器10及解碼器40編碼/解碼之頻譜係數所表示的頻譜12,該頻譜12之頻譜切塊展示於圖6中。即,原始及最終重建構之音訊
信號的頻譜於圖6中展示於62處。預強調之版本以點線展示於64處。預強調之版本64的線性預測估計頻譜包絡藉由點鏈線66來展示,且其感官上修改的版本(亦即,感官上激發之合成濾波函數的轉移函數)使用雙點鏈線在圖6中展示於68處。頻譜12可為藉由感官上加權之合成濾波函數68之逆函數對原始音訊信號頻譜62之預強調版本進行濾波的結果。在任何狀況下,編碼器及解碼器兩者可存取頻譜包絡66,該頻譜包絡66又可具有或多或少明顯的共振峰70或谷72。根據本申請案之替代性實施例,關於頻譜形狀的資訊係至少部分基於頻譜12之頻譜包絡66的此等共振峰70及/或谷72的相對位置來定義。舉例而言,共振峰70之間的頻譜距離74可用以設定當前頻譜係數x與先前頻譜係數o之間的前述相對頻譜距離28。舉例而言,距離28可較佳設定為等於距離74或距離74的整數倍,然而,替代例亦為可行的。
替代如說明於圖6中之基於LP的包絡,亦可以不同方式定義頻譜包絡。舉例而言,可借助於縮放因數定義包絡並在資料串流中加以傳輸。亦可使用傳輸包絡的其他方式。
歸因於以關於圖5及圖6概述之方式調整距離28,相較於(例如)在頻譜上更靠近當前頻譜係數x的其他頻譜係數,「參考」頻譜係數o之值表示用於估計當前頻譜係數x之機率分佈估計的實質上更好之提示。在此方面,請注意,上下文模型化在多數狀況下係一方面熵編碼複雜性與另一方面編碼效率之間的折衷。因此,迄今描述之實施例
建議取決於關於頻譜形狀的資訊調適相對頻譜距離28,使得(例如)距離28隨著度量60增加及/或隨著共振峰間距離74增加而增加。然而,執行熵編碼/解碼之上下文調適所基於的先前係數o之數目可恆定,亦即,可能不增加。執行上下文調適所基於之先前頻譜係數o的數目可(例如)恆定而無關於與頻譜形狀相關的資訊的變化。此情形意謂以上文概述之方式調適相對頻譜距離28可在不顯著增加執行上下文模型化之額外負荷的情況下導致更好或更有效的熵編碼/解碼。僅調適頻譜距離28自身會使上下文模型化之額外負荷增加。
為了更詳細地說明剛剛提及之問題,參考展示來自頻譜圖12之頻譜時間部分的圖7,該頻譜時間部分包括待編碼/解碼的當前頻譜係數14。另外,圖7說明五個例示性先前編碼/解碼之頻譜係數o的範本,在該等先前編碼/解碼之頻譜係數的基礎上執行當前頻譜係數x之熵編碼/解碼的上下文模型化。範本定位於當前頻譜係數x的位置處,且指示相鄰參考頻譜係數o。取決於關於頻譜之形狀的前述資訊,調適此等參考頻譜係數o之頻譜位置的頻譜展散。此情形使用雙向箭頭80及劃陰影線之小圓說明於圖7中,該等小圓例示性地說明了在(例如)取決於調適80而縮放參考頻譜係數之頻譜位置的頻譜展散的狀況下參考頻譜係數的位置。即,圖7展示有助於上下文模型化之參考頻譜係數的數目,亦即,圍繞當前頻譜係數x及識別參考頻譜係數o的範本之參考頻譜係數的數目保持恆定而無關於關於頻譜形狀
的資訊之任何變化。根據80且固有地根據參考頻譜係數自身之間的距離僅調適此等參考頻譜係數與當前頻譜係數之間的相對頻譜距離。然而,請注意,參考頻譜係數o之數目不必保持恆定。根據實施例,參考頻譜係數之數目可隨著相對頻譜距離增加而增加。然而,相反情形將亦可行。
請注意,圖7展示當前頻譜係數x之上下文模型化亦涉及對應於更早頻譜/時間框之先前編碼/解碼頻譜係數的例示性狀況。然而,此情形亦僅理解為實例,且根據其他實施例,對此等時間上在先之先前編碼/解碼頻譜係數的相依性可被排除。圖8說明機率分佈估計導出器42/52可在一或多個參考頻譜係數o的基礎上判定針對當前頻譜係數的機率分佈估計的方式。如圖8中所說明,為此目的,一或多個參考頻譜係數o可經受純量函數82。在純量函數的基礎上,例如,一或多個參考頻譜係數o被映射至索引,該索引對來自可用機率分佈估計集合中的待用於當前頻譜係數x的機率分佈估計編索引。如上文已提及,可用機率分佈估計在算術編碼的狀況下可(例如)對應於符號字母表的不同機率間隔再分,或在使用可變長度編碼的狀況下對應於不同可變長度編碼表。
在繼續描述上述頻譜係數編碼器/解碼器至各別基於變換之編碼器/解碼器中的可能整合之前,在下文論述關於迄今描述之實施例可發生變化之方式的若干可能性。舉例而言,僅出於說明目的而選擇了上文關於圖3及圖4簡潔地概述之逸出機制,且根據替代性實施例,其可被排除。
在下文所描述之實施例中,使用逸出機制。此外,如自下文所概述之更特定實施例的描述顯而易見,替代個別地編碼/解碼頻譜係數,可以n元組為單位編碼/解碼頻譜係數,亦即,以n個頻譜上緊密相鄰的頻譜係數為單位進行編碼/解碼。在該狀況下,相對頻譜距離之判定亦可以此等n元組為單位或以個別頻譜係數為單位來判定。關於圖8之純量函數82,請注意,純量函數可為算術函數或邏輯運算。此外,針對(例如)歸因於例如超出頻譜之頻率範圍或例如位於頻譜之以一頻譜時間解析度(該頻譜時間解析度不同於在對應於當前頻譜係數之時刻對頻譜進行取樣所用的頻譜時間解析度)藉由頻譜係數取樣的一部分中而不可用的彼等參考純量係數o可採取特殊措施。不可用參考頻譜值o之值可藉由例如預設值替換,且接著與其他(可用)參考頻譜係數一起輸入至純量函數82中。熵編碼/解碼可使用上文概述之頻譜距離調適起作用的另一方式係如下:例如,當前頻譜係數可經受二進位化。舉例而言,頻譜係數x可被映射於一系列頻格(bin)上,該等頻格接著使用相對頻譜距離調適的調適來經熵編碼。當解碼時,頻格將被依序熵解碼,直至遇到有效頻格序列,有效頻格序列可接著被重新映射至當前頻譜係數x的各別值。
另外,取決於一或多個先前頻譜係數o的上下文調適可以不同於圖8中描繪之方式的方式來實施。詳言之,純量函數82可用以對來自可用上下文之集合的可用上下文編索引,且每一上下文可已與機率分佈估計相關聯。在該
狀況下,每當當前經編碼/經解碼頻譜係數x已被指派給各別上下文(即,使用此當前頻譜係數x的值)時,與某上下文相關聯的機率分佈估計可被調適以適應於實際頻譜係數統計。
最終,圖9a及圖9b展示關於可在編碼器與解碼器之間同步與頻譜形狀相關的資訊之導出的方式之不同可能性。圖9a展示一種可能性,其中使用隱式發信以便在編碼器與解碼器之間同步與頻譜形狀相關之資訊的導出。此處,在編碼側及解碼側兩者處,資訊之導出係分別基於位元串流30的先前編碼之部分或先前解碼部分來執行,編碼側處之導出使用參考標誌83指示,且解碼側處之導出使用參考標誌84來指示。兩個導出可(例如)藉由導出器42及52自身來執行。
圖9b說明一種可能性,其中使用顯式發信號以便將與頻譜形狀相關的資訊自編碼器輸送至解碼器。編碼側處之導出83可甚至涉及對其包括的分量歸因於編碼損耗而在解碼側不可用的原始音訊信號之分析。確切而言,將資料串流30內之顯式發信用以呈現在解碼側處可用的與頻譜形狀相關的資訊。換言之,解碼側處之導出84使用資料串流30內之顯式發信號,以便存取與頻譜之形狀相關的資訊。顯式發信號30可涉及差分編碼。如下文將更詳細地概述,例如,出於其他目的已在資料串流30中可用的LTP(長期預測)滯後參數可用作與頻譜形狀相關的資訊。然而,替代地,圖9b之顯式發信號可相對於已可用之LTP滯後參數差
分地(亦即,與已可用之LTP滯後參數有區別地)編碼度量60。存在許多其他可能性,以便呈現在解碼側可用的關於頻譜形狀的資訊。
除上文陳述之替代性實施例外,請注意,除熵編碼/解碼外,頻譜係數之編碼/解碼亦可涉及在頻譜及/或時間上預測當前待編碼/解碼的頻譜係數。預測殘餘可接著經受如上文所描述的熵編碼/解碼。
在已描述了針對頻譜係數編碼器及解碼器的各種實施例之後,在以下一些實施例中,描述關於頻譜係數編碼器及解碼器可有利地建置於基於變換之編碼器/解碼器中的方式。
圖10a(例如)展示根據本申請案之實施例的基於變換之音訊編碼器。圖10a之基於變換的音訊編碼器通常使用參考標誌100來指示,且包含繼之以圖1之頻譜係數編碼器10的頻譜電腦102。頻譜電腦102接收音訊信號18,且在音訊信號18之基礎上計算頻譜12,藉由如上文所描述的頻譜係數編碼器10將頻譜12之頻譜係數編碼至資料串流30中。圖10b展示對應解碼器104的構造:解碼器104包含如上文所概述地形成的頻譜係數解碼器40的序連連接,且在圖10a及圖10b的狀況下,頻譜電腦102可(例如)僅對頻譜20執行重疊變換,而頻域至時域電腦106對應地僅執行重疊變換的逆變換。頻譜係數編碼器10可經組配以無損耗地編碼入埠頻譜20。相較於頻譜係數編碼器10,頻譜電腦102可歸因於量化而引入編碼損耗。
為了頻譜成形量化雜訊,頻譜電腦102可體現為如圖11a中所展示。此處,頻譜12係使用縮放因數頻譜成形。詳言之,根據圖11a,頻譜電腦102包含變換器108及頻譜成形器110的序連連接,其中變換器108使入埠音訊信號18經受頻譜分解變換,以便獲得音訊信號18的未經成形頻譜112,其中頻譜成形器110使用自頻譜電腦102之縮放因數判定器116獲得的縮放因數114將此未經成形頻譜112頻譜成形,以便獲得最終由頻譜係數編碼器10編碼的頻譜12。舉例而言,頻譜成形器110自縮放因數判定器116獲得每縮放因數頻帶一個縮放因數114,且使各別縮放因數頻帶之每一頻譜係數除以與各別縮放因數頻帶相關聯的縮放因數,以便接收頻譜12。縮放因數判定器116可由感官模型驅動,以便基於音訊信號18判定縮放因數。替代地,縮放因數判定器116可基於線性預測分析判定縮放因數,使得縮放因數表示取決於由線性預測係數資訊定義的線性預測合成濾波器的轉移函數。編碼器10將線性預測係數資訊118連同頻譜20的頻譜係數一起編碼至資料串流30中。為了完整性,圖11a將量化器120展示為定位於頻譜成形器110下游,以便藉由量化頻譜係數獲得頻譜12,該等經量化頻譜係數接著由頻譜係數編碼器10來無損耗地編碼。
圖11b展示對應於圖10a之編碼器的解碼器。此處,頻域至時域電腦106包含縮放因數判定器122,其在含有於資料串流30中的線性預測係數資訊118的基礎上重建構縮放因數114,使得縮放因數表示取決於由線性預測係數
資訊118定義的線性預測合成濾波器的轉移函數。頻譜成形器根據縮放因數114頻譜成形如由解碼器自資料串流30所解碼的頻譜12,亦即,頻譜成形器124使用各別縮放因數頻帶的縮放因數而縮放每一頻譜頻帶內的縮放因數。因此,在頻譜成形器124之輸出端處,產生音訊信號18之未經成形頻譜112的重建構,且如藉由虛線在圖11b中所說明,借助於逆變換器126將逆變換應用於頻譜112上以便在時域中重建構音訊信號18為可選的。
圖12a展示在使用基於線性預測之頻譜成形的狀況下圖11a之基於變換之音訊編碼器的更詳細實施例。除展示於圖11a中的組件外,圖12a之編碼器12a包含預強調濾波器128,其經組配以使入埠音訊信號18最初經受預強調濾波。預強調濾波器128可(例如)實施為FIR濾波器。預強調濾波器128之轉移函數可(例如)表示高通轉移函數。根據一實施例,預強度濾波器128體現為n階高通濾波器,諸如具有轉移函數H(z)=1-αz-1的一階高通濾波器,其中α設定為(例如)0.68。因此,在預強調濾波器128的輸出端處,產生音訊信號18之預強調版本130。另外,圖12a將縮放因數判定器116展示為由LP(線性預測)分析器132及線性預測係數至縮放因數轉換器134構成。LPC分析器132在音訊信號18之預強調版本的基礎上計算線性預測係數資訊118。因此,資訊118之線性預測係數表示音訊信號18之基於線性預測的頻譜包絡,或為了更精準,表示音訊信號18的預強調版本130。LP分析器132之操作模式可(例如)涉及入埠信號130的
窗化,以便獲得待進行LP分析的信號130之窗化部分的序列,涉及自動相關判定以便判定每一窗化部分的自動相關,及涉及(可選的)滯後窗化,從而將滯後窗函數應用於自動相關。線性預測參數估計可接著對自動相關或滯後窗輸出(亦即,窗化自動相關函數)執行。線性預測參數估計可(例如)涉及維納-萊文森-德賓(Wiener-Levinson-Durbin)或其他合適演算法對(滯後窗化)自動相關的執行,以便按自動相關(亦即,按信號130的窗化部分)導出線性預測係數。即,在LP分析器132之輸出端處,產生LPC係數118。LP分析器132可經組配以量化線性預測係數以用於插入至資料串流30中。線性預測係數之量化可在不同於線性預測係數域的另一域中執行,諸如在線頻譜對或線頻譜頻域中執行。然而,亦可使用不同於維納-萊文森-德賓演算法的其他演算法。
線性預測係數至縮放因數轉換器134將線性預測係數轉換成縮放因數114。轉換器134可判定縮放因數140,以便對應於如由線性預測係數資訊118定義之線性預測合成濾波器的逆濾波器1/A(z)。替代地,例如,轉換器134判定縮放因數以便遵循對此線性預測合成濾波器的感官激發修改,諸如1/A(γ.z),其中γ=0.92±10%。對線性預測合成濾波器之感官激發修改(亦即,1/A(γ.z))可被稱作「感官模型」。
為了說明目的,圖12a展示另一元件,然而,該另一元件對於圖12a之實施例係可選的。此元件為定位於變換器108上游的LTP(長期預測)濾波器136,以便使音訊信號
經受長期預測。較佳地,LP分析器132對非長期預測濾波版本進行操作。換言之,LTP濾波器136對音訊信號18或其預強調版本130執行LTP預測,且輸出LTP殘餘版本138,使得變換器108對預強調且LTP預測的殘餘信號138執行變換。LTP濾波器可(例如)實施為FIR濾波器,且LTP濾波器136可藉由包括(例如)LTP預測增益及LTP滯後的LTP參數控制。兩個LTP參數140皆被編碼至資料串流30中。如下文更詳細地概述,LTP增益表示度量60之實例,此係由於LTP增益指示了在無LTP濾波的情況下將在頻譜12中完全展現的音高或週期性,且在使用LTP濾波時,LTP增益以取決於控制LTP濾波器136之LTP濾波強度的LTE增益參數的減小程度以逐漸減低之強度發生於頻譜12中。
為了完整性,圖12b展示與圖12a之編碼器配合的解碼器。除圖11b之組件且縮放因數判定器122被體現為LPC至縮放因數轉換器142的事實外,圖12b之解碼器包含在逆變換器126下游的重疊相加級144,其使由逆變換器126輸出的逆變換經受重疊相加程序,藉此獲得預強調且LTP濾波版本138之重建構,該預強調且LTP濾波版本138接著在LTP後置濾波器146處經受LTP後置濾波,該LTP後置濾波器之轉移函數對應於LTP濾波器136之轉移函數的逆函數。LTP後置濾波器146可(例如)以IIR濾波器之形式來實施。在LTP後置濾波器146之後,在圖12b中例示性地在LTP後置濾波器146下游,圖12b之解碼器包含取消強調濾波器148,其使用對應於預強調濾波器128之轉移函數之逆函數的轉移
函數對時域信號執行取消強調濾波。取消強調濾波器148亦可以IIR濾波器之形式體現。在強調濾波器148之輸出端處產生音訊信號18。
換言之,上述實施例提供了藉由使諸如算術編碼器上下文之熵編碼器上下文的設計適應於諸如信號之週期性的信號頻譜形狀而編碼音調信號及頻域的可能性。坦白而言,上述實施例將上下文擴展超出鄰域之概念,且提出了基於音訊信號頻譜形狀(諸如基於音高資訊)的適應性上下文設計。此音高資訊可另外被傳輸至解碼器,或可已從其他編碼模組(諸如上述LTP增益)獲得。上下文接著經映射以便指向與當前待編碼係數按為輸入信號之基頻之倍數或與該基頻成比例的距離相關的已編碼係數。
亦請注意,根據圖12及圖12b使用之LTP預/後置濾波器概念可藉由諧波後置濾波器概念來替換,根據該諧波後置濾波器概念,經由LTP參數來控制解碼器處之諧波後置濾波器,該等LTP參數包括自編碼器經由資料串流30發送至解碼器的音高(或音高滯後)。對於使用顯式發信差分傳輸與頻譜形狀相關的前述資訊至解碼器,LTP參數可用作參考。
借助於上文概述之實施例,音調信號之預測可被排除,藉此(例如)避免引入非所要的框間相依性。另一方面,編碼/解碼頻譜係數之以上概念亦可與任何預測技術組合,此係由於預測殘餘仍展示一些諧波結構。
使用其他詞語,再次關於以下諸圖來說明上文所
描述之實施例,其中圖13展示使用上文概述之頻譜距離調適概念之編碼程序的通用方塊圖。為了方便使以下描述與迄今提出之描述之間協調一致,參考標誌被部分重用。
輸入信號18首先被輸送至TD(TD=時域)模組200中的雜訊成形/預測。模組200涵蓋(例如)圖12a之元件128及136中的一者或兩者。此模組200可被繞過,或其可藉由使用LPC編碼執行短期預測,及/或執行如圖12a中所說明的長期預測。可想到每一種類之預測。若時域處理中之一者利用並傳輸音高資訊,則如在上文已借助於由LTP濾波器136輸出之LTP滯後參數簡潔地概述,此資訊可接著被輸送至基於上下文的算術編碼器模組以用於基於音高之上下文映射。
接著,由變換器108借助於時間-頻率變換將殘餘及成形時域信號202變換至頻域。可使用DFT或MDCT。變換長度可為適應性的,且為了低延遲,將使用具有先前及下一變換窗(比較24)的低重疊區。在文獻之剩餘部分中,將使用MDCT作為例示性實例。
接著藉由模組204在頻域中成形變換信號112,因此(例如)使用縮放因數判定器116及頻譜成形器110來實施模組204。以上操作可藉由LPC係數之頻率回應且藉由由音質模型驅動之縮放因數來進行。亦有可能的是應用時間雜訊成形(TNS)或頻域預測,從而利用並傳輸音高資訊。在此狀況下,音高資訊可被輸送至基於上下文之算術編碼器模組,以用於基於音高之上下文映射。後一可能性亦可被分
別應用至圖10a至圖12b的以上實施例。
輸出頻譜係數接著在藉由基於上下文之熵編碼器10進行無雜訊編碼之前藉由量化級120來量化。如上文所描述,此最後模組10使用(例如)輸入信號之音高估計作為關於音訊信號之頻譜的資訊。此資訊可自雜訊成形/預測模組200或204中的一者繼承,該模組已在時域或頻譜中預先執行。若資訊不可用,則可諸如藉由音高估計模組206對輸入信號執行專用音高估計,該音高估計模組206接著將音高資訊發送至位元串流30中。
圖14展示與圖13配合之解碼程序的一般方塊圖。該解碼程序由描述於圖13中之處理的逆處理組成。在圖13及圖14之狀況下用作關於頻譜形狀之資訊的實例的音高資訊首先被解碼並輸送至算術解碼器40。若需要,則資訊被進一步輸送至要求此資訊的其他模組。
詳言之,除解碼來自資料串流30之音高資訊且因此對圖9b中之導出程序84負責的音高資訊解碼器208外,圖14之解碼器在基於上下文之解碼器40之後且以以下提及之次序包含解量化器210、FD(頻域)逆雜訊成形/預測模組212、逆變換器214及TD逆雜訊成形/預測模組216,前述各者全部彼此串聯以便自頻譜12重建構時域中之音訊信號18,其中頻譜12之頻譜係數係由解碼器40自位元串流30解碼。在將圖14之元件映射至(例如)圖12b中所展示之彼等元件時,逆變換器214涵蓋圖12b的逆變換器126及重疊相加級144。另外,圖14說明可使用(例如)對於所有頻譜線相等的
量化步驟函數將解量化應用於由編碼器40輸出的經解碼頻譜係數。另外,圖14說明,諸如TNS(時間雜訊成形)模組之模組212可定位於頻譜成形器124與126之間。時域逆雜訊成形/預測模組216涵蓋圖12b的元件146及/或148。
為了再次激發由本申請案之實施例提供的優點,圖15展示用於頻譜係數之熵編碼的習知上下文。該上下文覆蓋目前待編碼係數之過去鄰域的有限區域。即,圖15展示用於使用如(例如)用於MPEG USAC中之上下文調適來熵編碼頻譜係數的實例。圖15因此以類似於圖1及圖2之方式說明頻譜係數,然而,其中對頻譜相鄰頻譜係數分組或將該等頻譜係數分割成稱作頻譜係數之n元組的叢集。為了區分此等n元組與個別頻譜係數,同時仍保持與上文已提出的描述內容之一致性,使用參考標誌14'來指示此等n元組。圖15藉由以下操作區分已經編碼/解碼之n元組與尚未編碼/解碼之n元組:使用矩形輪廓描繪已經編碼/解碼之n元組,且使用圓形輪廓描繪尚未編碼/解碼之n元組。另外,當前待解碼/編碼之n元組14'係使用帶陰影輪廓及圓形輪廓描繪,而藉由定位於當前待處理之n元組處的固定鄰域範本區域化的已經編碼/解碼n元組14'亦使用帶陰影線來指示,然而具有矩形輪廓。因此,根據圖15之實例,鄰域上下文範本識別當前待處理n元組之鄰域中的六個n元組14',即同一時刻但緊密相鄰之較低頻譜線處的n元組(即,c0),在相同頻譜線處但在緊接在前之時刻處的一個n元組(即,c1),在緊接在前之時刻處緊密相鄰之較高頻譜線處的n元組
(即,c2)等等。即,根據圖15使用之上下文範本識別與當前待處理n元組相距固定相對距離的參考n元組14',即緊密鄰居。根據圖15,例示性地以稱作n元組的n個一組之區塊來考慮頻譜係數。組合n個連續值准許利用係數間相依性。較高尺寸使待編碼的n元組之字母表大小指數地增加且因此使碼簿大小指數地增加。在描述之剩餘部分中例示性地使用n=2之尺寸,且其表示編碼增益與碼簿大小之間的折衷。在所有實施例中,編碼(例如)分離地考慮正負號。此外,每一係數的2個最高有效位元及剩餘最低有效位元亦可經分離地處理。(例如)上下文調適可僅應用至無正負號頻譜值的2個最高有效位元(MSB)。正負號及最低有效位元可被假設為均一地分佈。連同2元組之MSB的16個組合一起,將逸出符號ESC添加於字母表中,從而指示解碼器必須預期一個額外LSB。傳輸與額外LSB一樣多的ESC符號。總共17個符號形成碼的字母表。本發明不限於產生符號的上述方式。
將後面的特定細節轉移至圖3及圖4之描述內容中,此意謂以下情形:熵編碼引擎44/熵解碼引擎54的符號字母表可涵蓋值{0,1,2,3}加上逸出符號,且若待編碼之入埠頻譜係數超出3,則按需要的頻度將入埠頻譜係數除以4以便小於4,同時每次除法皆編碼逸出符號。因此,針對每一頻譜係數編碼0或更多個逸出符號繼之以實際非逸出符號,其中(例如)僅此等符號中之前兩個符號被使用如本文中之前描述的上下文適應性來編碼。將此理念轉移至2元組(亦即,成對的頻譜上緊密相鄰之係數),符號字母表可包含
針對此2元組的16個值對,即{(0,0),(0,1),(1,0),...,(1,1)},及逸出符號esc(其中esc係逸出符號的縮寫),亦即總計17個符號。包含至少一個超出3之係數的每一入埠頻譜係數n元組皆經受應用至各別2元組之每一係數的除以4。在解碼側,逸出符號(若有的話)之數目乘以4被添加至自非逸出符號獲得的剩餘值。
圖16展示由根據上文概述之概念修改圖15之概念產生的經映射上下文映射的組態,根據該上文概述之概念,諸如藉由考慮信號之週期性或音高資訊而取決於關於頻譜形狀的資訊來調適參考頻譜係數之相對頻譜距離28。詳言之,圖16a至圖16c展示,上下文內對應於前述相對頻譜距離28的距離D可藉由由以下公式給出的D0來粗略地估計:
此處,fS為取樣頻率,N為MDCT大小,且L為樣本中的滯後週期。在實例圖16(a)中,上下文指向與當前待編碼n元組相距D的倍數的n元組。圖16(b)組合習知鄰域上下文與諧波相關上下文。最終,圖16(c)展示對先前框無相依性的框內映射上下文的實例。即,圖16a說明,除上文關於圖7陳述的可能性外,可將取決於關於頻譜形狀之資訊的相對頻譜距離之調適應用至屬於上下文範本之固定數目個參考頻譜係數的全部。圖16b展示,根據不同實例,僅此等參考頻譜係數的子集經受根據調適性80的移位,諸如,僅上下文範本之低頻率側處的在頻譜上最外部之頻譜係數
(此處C3及C5)經受移位。剩餘參考頻譜係數(此處C0至C4)可相對於當前處理之頻譜係數定位於固定位置處,即,相對於當前待處理頻譜係數處於緊密相鄰之頻譜時間位置處。最終,圖16c展示了以下可能性,僅先前編碼頻譜係數被用作上下文範本之參考係數,該等係數定位於與當前待處理頻譜係數相同的時刻。
圖17給出圖16a至圖16c之經映射上下文相較於根據圖15a之習知上下文可更有效之方式的說明,該習知上下文未能預測高度諧波頻譜X的音調(比較20)。
隨後,將詳細地描述可能的上下文映射機制,及提供用於有效地估計並編碼距離D的例示性實施方案。出於例示性目的,在以下章節中將使用根據圖16c的框內映射上下文。
第一實施例:2元組編碼及映射
首先,以一方式搜尋最佳距離以最多地減少編碼大小為N之當前量化頻譜x[]所需的位元之數目。可藉由在先前執行之音高估計中找到之滯後週期L的D0函數來估計初始距離。搜尋範圍可係如下:D0-△<D<D0+△
替代地,可藉由考慮D0之倍數來修正範圍。擴展範圍變成:
其中M為屬於有限集合F的乘法係數。舉例而言,M可獲得值0.5、1及2,以探索一半音高及雙倍音高。最終,亦
可進行D之窮盡搜尋。實際上,此最後方法可過於複雜。圖18給出搜尋演算法的實例。此搜尋演算法可(例如)為導出程序82之部分,或解碼及編碼側處的導出程序82及84兩者的部分。
成本被初始化至不執行針對上下文之映射時的成本。若沒有導致更好成本的距離,則不執行映射。當執行映射時,旗標被傳輸至解碼器以供發信。
若找到最佳距離Dopt,則需要傳輸最佳距離Dopt。若L已由編碼器之另一模組傳輸,則需要按某方式傳輸對應於圖9b之前述顯式發信的調整參數m及d,以使得Dopt=m.D0+d
否則,必須傳輸Dopt之絕對值。上文關於圖9b論述了兩個替代例。舉例而言,若考慮大小N=256且fs=12800Hz之MDCT,則可藉由將D限制在2與17之間來覆蓋30Hz與256Hz之間的音高頻率。對於整數解析度,D可以4位元來編碼;針對0.5之解析度以5位元編碼;且在0.25的解析度情況下以6位元編碼。
成本函數可被計算為用用於產生上下文映射之D編碼x[]所需要的位元之數目。此成本函數的獲得通常為複雜的,此係由於成本函數需要算術地編碼頻譜或至少具有其需要之位元之數目的良好估計。由於此成本函數對於針對每一候選距離D進行計算可為複雜的,因此提議替代例以直接根據自值D導出上下文映射來獲得成本的估計。在導出上下文映射的同時,可容易地計算相鄰映射上下文之範
數的差。由於在算術寫碼器中使用上下文來預測待編碼的n元組,且由於在較佳實施例中基於範數L1來計算上下文,因此相鄰映射上下文之間的範數差的總和係給定D的映射之效率的良好指示。首先,x[]之每一2元組的範數被計算如下:
其中當吾人在上下文計算中考慮範數L1時,在較佳實施例中NORM=1。在此章節中,正描述以解析度2工作的上下文映射,亦即,每2元組一個映射。解析度為r=2,且上下文映射表具有為N/2的大小。上下文映射產生及成本函數計算之偽碼給出如下:
一旦計算出了最佳距離D,便亦推斷索引置換表,該索引置換表給出頻譜之諧波位置、谷及尾端。上下文映射規則接著被推斷為:
該情形意謂,對於頻譜中具有索引i的2元組(x[2*i],x[2*i+1]),將藉由具有索引contextMapping[i-1]、contextMapping[i-2]...contextMapping[i-l]之2元組來考慮過去上下文,其中l為上下文的依據2元組之大小。若針對上下文亦考慮一或多個先前頻譜,則併入於過去上下文中之此等頻譜的2元組將具有contextMapping[i+1],...,contextMapping[i+1]、contextMapping[i]、contextMapping[i-1]、contextMapping[i-l]作為索引,其中2l+1為每個先前頻譜之上下文的大小。
IndexPermutation表亦給出額外關注資訊,此係由於IndexPermutation表收集音調分量之索引,繼之以非音
調分量的索引。因此,可預期到,對應振幅正在減低。此情況可藉由偵測IndexPermutaion中之最後索引來利用,該最後索引對應於非零2元組。此索引對應於(lastNz/2-1),其中lastNz被計算為:
cum_proba[]表為在對大型訓練集合進行之離線訓練期間獲得的不同累積模型。其在此特定狀況下包含17個符號。proba_model_lookup[]為將上下文索引t映射至累積機率模型pki的查找表。此表亦經由訓練階段獲得。cum_equiprob[]係等機率之2個符號之字母表的累積機率表。
第二實施例:具有1元組映射之2元組
在此第二實施例中,頻譜分量仍被逐個2元組地編碼,但contextMapping現具有1元組之解析度。該情形意謂,在映射上下文時存在多得多之可能性及靈活性。接著,經映射上下文可更好地適宜於給定信號。以如在章節3中進行之方式相同的方式搜尋最佳距離,但此次以解析度r=1進行。對於該情形,必須針對每一MDCT線計算normVect[]:
所得上下文映射接著藉由尺寸為N之表給出。如先前章節中一般計算LastNz,且編碼可描述如下:
與先前章節相反,兩個非後續頻譜係數可收集於同一2元組中。由於此原因,2元組之兩個元素的上下文映射可指向上下文表中的兩個不同索引。在較佳實施例中,選擇具有最低索引之經映射上下文,但亦可具有不同規則,例如對兩個經映射上下文進行平均。由於相同原因,亦應以不同方式處置上下文之更新。若2個元素在頻譜上為連續的,則使用計算上下文的習知方式。否則,針對2個元素,僅考慮元素自身之量值來單獨地更新上下文。
解碼由以下步驟組成:
●解碼旗標以知曉是否執行了上下文映射
●藉由解碼Dopt或用於獲得D0之Dopt的參數調整參數來解碼上下文映射。
●解碼lastNz
●解碼經量化頻譜如下:
因此,以上實施例尤其揭露(例如)用於音調信號之熵(諸如算術)編碼的基於音高之上下文映射。
儘管已在裝置之上下文中描述了一些態樣,但清楚的是,此等態樣亦表示對對應方法的描述,其中區塊或器件對應於方法步驟或方法步驟的特徵。相似地,在方法步驟之上下文中描述的態樣亦表示對對應裝置之對應區塊或項目或特徵的描述。方法步驟中之一些或全部可藉由(或使用)硬體裝置(比如微處理器、可程式化電腦或電子電路)來執行。在一些實施例中,最重要之方法步驟中的某一或多個步驟可藉由此裝置執行。
本發明之經編碼音訊信號可儲存於數位儲存媒體上,或可在諸如無線傳輸媒體或有線傳輸媒體(諸如,網際網路)之傳輸媒體上傳輸。
視某些實施方案的要求而定,本發明之實施例可以硬體或軟體來實施。實施方案可使用上面儲存有電子可讀控制信號的數位儲存媒體(例如,磁碟、DVD、藍光光碟、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體)來實行,該等電子可讀控制信號與可程式化電腦系統協作(或能夠與可程式化電腦系統協作),使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等電子可讀信號能夠與可程式化電腦系統協作,使得執行本文中所描述之方法中的一者。
通常,本發明之實施例可實施為具有程式碼之電腦程式產品,該程式碼在電腦程式產品於電腦上執行時可操作以執行方法中的一者。程式碼可(例如)儲存於機器可讀
載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。
換言之,本發明之方法的實施例因此係具有程式碼之電腦程式,該程式碼在電腦程式於電腦上執行時用於執行本文中所描述之方法中的一者。
本發明之方法的其他實施例因此係包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式的資料載體(或數位儲存媒體,或電腦可讀媒體)。資料載體、數位儲存媒體或所記錄之媒體通常為有形及/或非暫時性的。
本發明之方法的其他實施例因此為表示用於執行本文中所描述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如經由網際網路)來傳送。
其他實施例包含經組配或經調適以執行本文中所描述之方法中之一者的處理構件,例如,電腦或可程式化邏輯器件。
其他實施例包含上面安裝有用於執行本文中所描述之方法中之一者的電腦程式的電腦。
根據本發明之其他實施例包含經組配以傳送(例如,電子或光學地)用於執行本文中所描述之方法中之一者的電腦程式至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或其類似者。裝置或系統可(例
如)包含用於傳送電腦程式至接收器的檔案伺服器。
在一些實施例中,可程式化邏輯器件(例如,場可程式化閘陣列)可用以執行本文中所描述之方法之功能性中的一些或全部。在一些實施例中,場可程式化閘陣列可與微處理器協作以便執行本文中所描述之方法中的一者。通常,方法較佳藉由任何硬體裝置來執行。
上述實施例僅說明本發明之原理。應理解,本文中所描述之配置及細節的修改及變化對於熟習此項技術者將顯而易見。因此,本發明意欲僅受隨附申請專利範圍的範疇限制,且不受藉由本文中之實施例的描述及解釋呈現的特定細節之限制。
References
[1] Fuchs, G; Subbaraman, V; Multrus, M, "Efficient context adaptive entropy coding for real-time applications," Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on , vol, no, pp493,496, 22-27 May 2011
[2]ISO/IEC 13818, Part 7, MPEG-2 AAC
[3]Juin-Hwey Chen; Dongmei Wang, "Transform predictive coding of wideband speech signals," Acoustics, Speech, and Signal Processing, 1996 ICASSP-96 Conference Proceedings, 1996 IEEE International Conference on , voll, no, pp275,278 vol 1, 7-10 May 1996
12‧‧‧頻譜圖
20‧‧‧頻譜
28‧‧‧相對頻譜距離/距離D
60‧‧‧度量
Claims (21)
- 一種組配來解碼一音訊信號之一頻譜之頻譜係數的解碼器,該等頻譜係數屬於相同時刻,該解碼器組配來藉由按一脈絡適應性方式取決於該等頻譜係數的一先前解碼之頻譜係數(o)進行熵解碼來從低頻率到高頻率依序解碼該等頻譜係數及解碼該等頻譜係數之一當前待解碼的頻譜係數(x),同時取決於關於該頻譜之一形狀的一資訊而調整該先前解碼之頻譜係數(o)與該當前待解碼頻譜係數(x)之間的一相對頻譜距離。
- 如請求項1之解碼器,其中關於該頻譜之一形狀的該資訊包含以下各者中的至少一者:該音訊信號之一音高或週期性的一度量;該音訊信號之頻譜的一諧波間距離的一度量;該頻譜之一頻譜包絡的共振峰及/或谷的相對位置。
- 如請求項1之解碼器,其中該解碼器組配來從顯式信號化導出關於該頻譜之該形狀的該資訊。
- 如請求項1之解碼器,其中該解碼器組配來,從先前解碼之頻譜係數(o)或該頻譜之先前解碼之基於LPC的頻譜包絡,導出關於該頻譜之該形狀的該資訊。
- 如請求項1之解碼器,其中該解碼器組配成使得該熵解碼之相依性涉及多個先前解碼的頻譜係數(o),該等多個先前解碼之頻譜係數的頻譜位置的一頻譜展散取決於 關於該頻譜之該形狀的該資訊來調整。
- 如請求項1之解碼器,其中該解碼器組配成使得:關於該頻譜之該形狀的該資訊為該音訊信號之一音高的一度量,且該解碼器組配來,取決於該音高之該度量,調整該先前解碼之頻譜係數(o)與該當前待解碼之頻譜係數(x)之間的該相對頻譜距離,使得該相對頻譜距離隨著音高增加而增加,或關於該頻譜之該形狀的該資訊為該音訊信號之一週期性的一度量,且該解碼器組配來取決於週期性之該度量來調整該先前解碼之頻譜係數(o)與該當前待解碼頻譜係數(x)之間的該相對頻譜距離,使得該相對頻譜距離隨著週期性增加而減小,或關於該頻譜之該形狀的該資訊為該音訊信號之頻譜的一諧波間距離的一度量,且該解碼器組配來取決於該諧波間距離之該度量來調整該先前解碼之頻譜係數(o)與該當前待解碼頻譜係數(x)之間的該相對頻譜距離,使得該相對頻譜距離隨著諧波間距離增加而增加,或關於該頻譜之該形狀的該資訊包含該頻譜之一頻譜包絡的共振峰及/或谷的相對位置,且該解碼器組配來取決於該位置來調整該先前解碼之頻譜係數與該當前待解碼頻譜係數之間的該相對頻譜距離,使得該相對頻譜距離隨著該頻譜包絡中該等谷之間的頻譜距離及/或該頻譜包絡中該等共振峰之間的頻譜距離增加而增 加。
- 如請求項1之解碼器,其中該解碼器組配來,在藉由熵解碼來解碼該當前待解碼之頻譜係數時,藉由使該先前解碼之頻譜係數經受一純量函數來導出該當前待解碼頻譜係數的一機率分佈估計,且將該機率分佈估計用於該熵解碼。
- 如請求項1之解碼器,其中該解碼器組配來使用算術解碼作為熵解碼。
- 如請求項1之解碼器,其中該解碼器組配來藉由在頻譜及/或時間上預測該當前待解碼頻譜係數及用經由該熵解碼獲得之一預測餘數校正頻譜及/或時間上的預測來解碼該當前待解碼頻譜係數。
- 如請求項1至9中任一項之解碼器,其中該解碼器係為一以變換為基礎之音訊解碼器。
- 如請求項10之解碼器,其中該解碼器組配來藉由使用縮放因數縮放該頻譜來將該頻譜予以頻譜式地成形。
- 如請求項11之解碼器,其組配來基於線性預測係數資訊來決定該等縮放因數,使得該等縮放因數表示取決於由該線性預測係數資訊定義之一線性預測合成濾波器的一轉移函數。
- 如請求項12之解碼器,其中該轉移函數對由該線性預測係數資訊定義之該線性預測合成濾波器的相依性,會使得該轉移函數受到感知性加權。
- 如請求項13之解碼器,其中該轉移函數對由該線性預測 資訊定義之該線性預測合成濾波器1/A(z)的相依性,會使得該轉移函數係為一轉移函數1/A(k.z),其中k為一常數。
- 如請求項10之解碼器,其中該以變換為基礎之音訊解碼器支援經由顯式發信號處理之長期預測參數控制的長期預測諧波或後置濾波,其中該以變換為基礎之音訊解碼器組配來從該等顯式發信號處理之長期預測參數導出關於該頻譜之該形狀的該資訊。
- 一種組配來編碼一音訊信號之一頻譜之頻譜係數的編碼器,該等頻譜係數屬於相同時刻,該編碼器組配來藉由按一脈絡適應性方式取決於該等頻譜係數的一先前編碼頻譜係數(o)進行熵編碼,來從低頻率到高頻率依序編碼該等頻譜係數及編碼該等頻譜係數的一當前待編碼頻譜係數(x),同時取決於關於該頻譜之一形狀的一資訊來調整該先前編碼頻譜係數與當前編碼頻譜係數之間的一相對頻譜距離。
- 一種用於解碼一音訊信號之一頻譜之頻譜係數的方法,該等頻譜係數屬於相同時刻,該方法包含藉由按一脈絡適應性方式取決於該等頻譜係數的一先前解碼之頻譜係數(o)進行熵解碼,來從低頻率到高頻率依序解碼該等頻譜係數及解碼該等頻譜係數的一當前待解碼頻譜係數(x),同時取決於關於該頻譜之一形狀的一資訊來調整該先前解碼之頻譜係數(o)與該當前待解碼頻譜係數(x)之間的一相對頻譜距離。
- 一種用於編碼一音訊信號之一頻譜之頻譜係數的方法,該等頻譜係數屬於相同時刻,該方法包含藉由按一脈絡適應性方式取決於該等頻譜係數的一先前編碼之頻譜係數(o)進行熵編碼,來從低頻率到高頻率依序編碼該等頻譜係數及編碼該等頻譜係數的一當前待編碼頻譜係數(x),同時取決於關於該頻譜之一形狀的一資訊調整該先前編碼之頻譜係數與當前編碼頻譜係數之間的一相對頻譜距離。
- 一種具有程式碼之電腦程式,該程式碼用於在運行於一電腦上時執行如請求項17或18的方法。
- 一種解碼器,組配來解碼由一系列頻譜組成之一音訊信號的一頻譜圖之頻譜係數,該解碼器組配來沿著一頻譜時間路徑解碼該等頻譜係數,該頻譜時間路徑在一頻譜內自低頻率到高頻率頻譜性地掃描該等頻譜係數且接著以一時間上接續之頻譜的頻譜係數繼續,然後藉由以一脈絡適應性方式取決於包括屬於一當前頻譜的一頻譜係數之先前解碼之頻譜係數(o)的一範本進行熵解碼而解碼該當前頻譜的一當前待解碼頻譜係數(x),該範本被定位於該當前待解碼頻譜係數(x)的一位置,同時取決於關於該頻譜之一形狀的一資訊來調整屬於該當前頻譜之該頻譜係數(o)與該當前待解碼頻譜係數(x)之間的一相對頻譜距離。
- 如請求項20之解碼器,其中該解碼器組配成使得該相對頻譜距離隨著有關該頻譜之該形狀的該資訊之增加而 增加,其中有關該頻譜之形狀的該資訊包含該音訊信號之一音高或週期性的一度量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189391 | 2013-10-18 | ||
EP14178806 | 2014-07-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201521015A TW201521015A (zh) | 2015-06-01 |
TWI578308B true TWI578308B (zh) | 2017-04-11 |
Family
ID=51844681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103136011A TWI578308B (zh) | 2013-10-18 | 2014-10-17 | 音訊信號頻譜之頻譜係數的編碼技術 |
Country Status (17)
Country | Link |
---|---|
US (3) | US9892735B2 (zh) |
EP (1) | EP3058566B1 (zh) |
JP (3) | JP6385433B2 (zh) |
KR (1) | KR101831289B1 (zh) |
CN (2) | CN105723452B (zh) |
AU (1) | AU2014336097B2 (zh) |
BR (1) | BR112016008117B1 (zh) |
CA (1) | CA2925734C (zh) |
ES (1) | ES2660392T3 (zh) |
MX (1) | MX357135B (zh) |
MY (1) | MY181965A (zh) |
PL (1) | PL3058566T3 (zh) |
PT (1) | PT3058566T (zh) |
RU (1) | RU2638734C2 (zh) |
SG (1) | SG11201603046RA (zh) |
TW (1) | TWI578308B (zh) |
WO (1) | WO2015055800A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9313359B1 (en) | 2011-04-26 | 2016-04-12 | Gracenote, Inc. | Media content identification on mobile devices |
DK3573056T3 (da) | 2008-07-11 | 2022-10-03 | Fraunhofer Ges Forschung | Audiokoder og audioafkoder |
TWI585749B (zh) * | 2011-10-21 | 2017-06-01 | 三星電子股份有限公司 | 無損編碼方法 |
US11706481B2 (en) | 2012-02-21 | 2023-07-18 | Roku, Inc. | Media content identification on mobile devices |
CA2925734C (en) * | 2013-10-18 | 2018-07-10 | Guillaume Fuchs | Coding of spectral coefficients of a spectrum of an audio signal |
KR101837153B1 (ko) | 2014-05-01 | 2018-03-09 | 니폰 덴신 덴와 가부시끼가이샤 | 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체 |
DE102016200637B3 (de) * | 2016-01-19 | 2017-04-27 | Sivantos Pte. Ltd. | Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals sowie Verfahren zum latenzarmen Betrieb eines Hörsystems |
JP2018113414A (ja) * | 2017-01-13 | 2018-07-19 | 新光電気工業株式会社 | 半導体装置とその製造方法 |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
CN110544472B (zh) * | 2019-09-29 | 2021-12-31 | 上海依图信息技术有限公司 | 提升使用cnn网络结构的语音任务的性能的方法 |
US11227614B2 (en) * | 2020-06-11 | 2022-01-18 | Silicon Laboratories Inc. | End node spectrogram compression for machine learning speech recognition |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2650878A1 (en) * | 2011-01-25 | 2013-10-16 | Nippon Telegraph And Telephone Corporation | Encoding method, encoding device, periodic feature amount determination method, periodic feature amount determination device, program and recording medium |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583500A (en) | 1993-02-10 | 1996-12-10 | Ricoh Corporation | Method and apparatus for parallel encoding and decoding of data |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
ATE543179T1 (de) * | 2002-09-04 | 2012-02-15 | Microsoft Corp | Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus |
US7599840B2 (en) | 2005-07-15 | 2009-10-06 | Microsoft Corporation | Selectively using multiple entropy models in adaptive coding and decoding |
JP4736699B2 (ja) * | 2005-10-13 | 2011-07-27 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム |
DE102006027673A1 (de) * | 2006-06-14 | 2007-12-20 | Friedrich-Alexander-Universität Erlangen-Nürnberg | Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm |
US8527265B2 (en) | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
CN100578619C (zh) * | 2007-11-05 | 2010-01-06 | 华为技术有限公司 | 编码方法和编码器 |
CA2716817C (en) | 2008-03-03 | 2014-04-22 | Lg Electronics Inc. | Method and apparatus for processing audio signal |
EP2346030B1 (en) * | 2008-07-11 | 2014-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and computer program |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
KR101425290B1 (ko) | 2009-10-08 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램 |
ES2461183T3 (es) * | 2010-03-10 | 2014-05-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Decodificador de señales de audio, codificador de señales de audio, procedimiento para decodificar una señal de audio, método para codificar una señal de audio y programa de ordenador que utilizan una adaptación dependiente de la frecuencia de un contexto de codificación |
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
RU2651187C2 (ru) * | 2012-06-28 | 2018-04-18 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Основанное на линейном предсказании кодирование аудио с использованием улучшенной оценки распределения вероятностей |
CA2925734C (en) * | 2013-10-18 | 2018-07-10 | Guillaume Fuchs | Coding of spectral coefficients of a spectrum of an audio signal |
-
2014
- 2014-10-17 CA CA2925734A patent/CA2925734C/en active Active
- 2014-10-17 CN CN201480056910.XA patent/CN105723452B/zh active Active
- 2014-10-17 CN CN202010009068.1A patent/CN111009249B/zh active Active
- 2014-10-17 AU AU2014336097A patent/AU2014336097B2/en active Active
- 2014-10-17 MY MYPI2016000657A patent/MY181965A/en unknown
- 2014-10-17 ES ES14792420.3T patent/ES2660392T3/es active Active
- 2014-10-17 BR BR112016008117-0A patent/BR112016008117B1/pt active IP Right Grant
- 2014-10-17 SG SG11201603046RA patent/SG11201603046RA/en unknown
- 2014-10-17 EP EP14792420.3A patent/EP3058566B1/en active Active
- 2014-10-17 PL PL14792420T patent/PL3058566T3/pl unknown
- 2014-10-17 WO PCT/EP2014/072290 patent/WO2015055800A1/en active Application Filing
- 2014-10-17 JP JP2016524486A patent/JP6385433B2/ja active Active
- 2014-10-17 PT PT147924203T patent/PT3058566T/pt unknown
- 2014-10-17 KR KR1020167010037A patent/KR101831289B1/ko active IP Right Grant
- 2014-10-17 RU RU2016118776A patent/RU2638734C2/ru active
- 2014-10-17 TW TW103136011A patent/TWI578308B/zh active
- 2014-10-17 MX MX2016004806A patent/MX357135B/es active IP Right Grant
-
2016
- 2016-04-15 US US15/130,589 patent/US9892735B2/en active Active
-
2018
- 2018-01-02 US US15/860,311 patent/US10115401B2/en active Active
- 2018-08-07 JP JP2018148125A patent/JP6748160B2/ja active Active
- 2018-10-10 US US16/156,641 patent/US10847166B2/en active Active
-
2020
- 2020-08-06 JP JP2020133541A patent/JP7218329B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2650878A1 (en) * | 2011-01-25 | 2013-10-16 | Nippon Telegraph And Telephone Corporation | Encoding method, encoding device, periodic feature amount determination method, periodic feature amount determination device, program and recording medium |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI578308B (zh) | 音訊信號頻譜之頻譜係數的編碼技術 | |
JP6970789B2 (ja) | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム | |
JP2023098967A (ja) | スペクトルエンベロープのサンプル値のコンテキストベースエントロピー符号化 | |
CA2978815C (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal | |
JP6148811B2 (ja) | 周波数領域におけるlpc系符号化のための低周波数エンファシス | |
KR20120128156A (ko) | 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램 | |
US11694701B2 (en) | Low-complexity tonality-adaptive audio signal quantization |