TWI455113B - 音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式 - Google Patents
音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式 Download PDFInfo
- Publication number
- TWI455113B TWI455113B TW100107904A TW100107904A TWI455113B TW I455113 B TWI455113 B TW I455113B TW 100107904 A TW100107904 A TW 100107904A TW 100107904 A TW100107904 A TW 100107904A TW I455113 B TWI455113 B TW I455113B
- Authority
- TW
- Taiwan
- Prior art keywords
- time
- audio signal
- information
- warp
- representation
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 258
- 238000000034 method Methods 0.000 title claims description 48
- 238000004590 computer program Methods 0.000 title claims description 18
- 238000005070 sampling Methods 0.000 claims description 242
- 238000013507 mapping Methods 0.000 claims description 106
- 230000003595 spectral effect Effects 0.000 claims description 43
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 20
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 239000011295 pitch Substances 0.000 description 79
- 239000000523 sample Substances 0.000 description 49
- 238000010586 diagram Methods 0.000 description 30
- 230000007704 transition Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000013139 quantization Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000012952 Resampling Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
依據本發明之實施例係有關於一種音訊信號解碼器。依據本發明之其它實施例係有關於一種音訊信號編碼器。依據本發明之其它實施例係有關於一種音訊信號之解碼方法,音訊信號之編碼方法,及電腦程式。
依據本發明之若干實施例係有關於一種取樣頻率相依性之音高變化量化技術。
後文中,將對時間扭曲音訊編碼領域作簡短介紹,其構想可結合本發明之若干實施例施用。
近年來,業已發展出某些技術來將音訊信號變換成頻域表示型態,以及例如,藉由考慮知覺遮蔽臨界值,而有效地編碼該頻域表示型態。此種音訊信號編碼構想於用以發射一編碼頻譜係數集合之區塊長度長時,及在只有比較少數頻譜係數係遠高於通用遮蔽臨界值,而大量頻譜係數係遠接近或低於通用遮蔽臨界值因而可被忽略(或以最小碼長度編碼)時特別有效。具有該種情況之一頻譜稱作為稀疏頻譜。
舉例言之,以餘弦為基礎或以正弦為基礎之調變重疊變換由於其能量壓縮性質,故常用於來源編碼用途。換言之,對具有常數基頻(音高)之諧波音調,其將信號能集中在較少數頻譜成分(子帶),結果導致有效信號表示型態。
一般而言,須瞭解信號的(基本)音高應為可與信號頻譜
區別之最低優勢頻率。於常見語音模型,音高乃藉人類喉嚨所調變之激發信號頻率。若只呈現單一個基頻,則頻譜極其簡單,只包含基頻及泛音(overtones)。此種頻譜可高度有效地編碼。但對具有可變音高之信號而言,相應於各個諧波成分之能係展開於數個變換係數,如此導致編碼效率的減低。
為了克服編碼效率的減低,欲編碼之音訊信號係在非均勻時間網格上有效地重複取樣。於隨後之處理中,藉非均勻重複取樣所得之樣本位置係經處理彷彿其表示在一均勻時間網格上的數值般。此項操作俗稱「時間扭曲」。樣本時間可優異地依據音高之時間變化而選用,使得音訊信號之時間扭曲版本的音高變化係小於該音訊信號之原先版本(時間扭曲之前)的音高變化。於音訊信號之時間扭曲之後,該音訊信號之時間扭曲版本係轉換成頻域。音高相依性時間扭曲具有下述效果:時間扭曲音訊信號之頻域表示型態典型地具有能量壓縮成比較原先(非時間扭曲音訊信號)頻域表示型態遠更少數的頻譜成分。
在解碼器端,時間扭曲音訊信號之頻域表示型態係轉成時域,使得該時間扭曲音訊信號之時域表示型態係於解碼器端可資利用。但在解碼器端重建的時間扭曲音訊信號之時域表示型態中,未含括編碼器端輸入的音訊信號之原先音高變化。據此,藉由針對解碼器端重建的時間扭曲音訊信號之時域表示型態的重複取樣而施加又另一次時間扭曲。
為了獲得編碼器端輸入音訊信號在解碼器之良好重建,期望解碼器端時間扭曲至少約略為相對於編碼器端時間扭曲的反向操作。為了獲得適當時間扭曲,期望具有在解碼器可資利用的資訊,其允許調整解碼器端時間扭曲。
由於典型地要求將此種資訊從音訊信號編碼器轉移至音訊信號解碼器,期望將此一傳送所要求的位元率維持小位元率,而仍然允許所要求的時間扭曲資訊在解碼器端可靠地重建。
有鑑於此,需要有一種構想其允許基於時間扭曲資訊之有效編碼表示型態而可靠地重建時間扭曲資訊。
依據本發明之一實施例提出一種經組配來基於包含一取樣頻率資訊、一編碼時間扭曲資訊及一編碼頻譜表示型態之一編碼音訊信號表示型態而提供一解碼音訊信號表示型態之音訊信號解碼器。該音訊信號解碼器包含一時間扭曲計算器(其例如可具有時間扭曲解碼器功能)及一扭曲解碼器。該時間扭曲計算器其係組配來將該編碼時間扭曲資訊對映至一解碼時間扭曲資訊。該時間扭曲計算器係經組配來依據該取樣頻率資訊而調適用以將編碼時間扭曲資訊之碼字組對映至描述該解碼時間扭曲資訊的解碼時間扭曲值之一對映規則。該扭曲解碼器其係經組配來基於該編碼頻譜表示型態及依據該解碼時間扭曲資訊而提供該解碼音訊信號表示型態。
依據本發明之此一實施例係基於發現:由於發現期望對較低取樣頻率樣本比對較高取樣頻率表示每個樣本更大的時間扭曲,故當用以將編碼時間扭曲資訊之碼字組對映至描述該解碼時間扭曲資訊的解碼時間扭曲值之對映規則係調整適應於取樣率時,可有效地編碼時間扭曲(其例如係藉時間扭曲輪廓描述)。較佳由編碼時間扭曲資訊之碼字組集合所表示的每個時間單位之時間扭曲係約略與取樣頻率獨立無關,其係轉譯成下述結果:假設每個音訊樣本(或每一音訊框)的時間扭曲碼字組數目維持至少近似常數而與實際取樣頻率獨立無關之情況下,藉一給定碼字組集合所能表示的時間扭曲對較小取樣頻率而言須比對較高取樣頻率為較大。
要言之,發現優異地依據編碼音訊信號(以編碼音訊信號表示型態表示)之取樣頻率,而調適用以將編碼時間扭曲資訊之碼字組(也簡稱為時間扭曲碼字組)對映至解碼時間扭曲值之一對映規則,原因在於如此允許針對較高取樣頻率之情況及針對較低取樣頻率之情況二者,使用小型(及結果位元率有效)時間扭曲碼字組集合來表示相關時間扭曲值。
藉由調適對映規則,可能對較高取樣頻率使用較高解析度來編碼較小範圍之時間扭曲值,而對較小取樣頻率使用較粗糙解析度來編碼較大範圍之時間扭曲值,其又轉而獲致極佳位元率效率。
於一較佳實施例中,編碼時間扭曲資訊之碼字組描述一時間扭曲輪廓之時間演變。該時間扭曲計算器係經組配來對由該編碼音訊信號表示型態所表示之編碼音訊信號之一音訊框,評估該編碼時間扭曲資訊之碼字組之預定數目。該碼字組之預定數目係與該編碼音訊信號之取樣頻率獨立無關。據此,可達成位元串流格式維持與取樣頻率實質上獨立無關,同時仍然可能有效地編碼時間扭曲。藉由對編碼音訊信號之一音訊框使用預定數目的時間扭曲碼字組,其中該預定數目較佳係與編碼音訊信號之取樣頻率獨立無關,位元串流格式並未隨取樣頻率而改變,及音訊解碼器之位元串流剖析器無需調整至取樣頻率。但藉由用以將編碼時間扭曲資訊之碼字組對映至解碼時間扭曲值之對映規則的調適,仍可達成時間扭曲之有效編碼,原因在於編碼時間扭曲資訊之碼字組對映至解碼時間扭曲值可調適至取樣頻率,使得時間扭曲值可表示之範圍獲致針對不同取樣頻率,解析度與最大可編碼時間扭曲間之良好折衷。
於一較佳實施例中,該時間扭曲計算器係經組配來調適該對映規則,使得該編碼時間扭曲資訊之碼字組之一給定集合的碼字組對映於其上之一解碼時間扭曲值範圍對第一取樣頻率係比對第二取樣頻率大,但限制條件為該第一取樣頻率係小於該第二取樣頻率。據此,針對較高取樣頻率編碼較小時間扭曲值範圍之相同碼字組,其針對較小取樣頻率則係編碼較大時間扭曲值範圍。如此,可確定針對高取樣頻率及低取樣頻率,皆可能對每一時間單位(例如以每秒八重元組定義,簡單標示為「oct/s」),編碼約略相等時間扭曲,即便對相對較高取樣頻率比相對較低取樣頻率,每個時間單位傳送更多時間扭曲碼字組亦如此。
於一較佳實施例中,解碼時間扭曲值為表示時間扭曲輪廓值之時間扭曲輪廓值或表示時間扭曲輪廓值變化之時間扭曲輪廓變異值。
於一較佳實施例中,該時間扭曲計算器係經組配來調適該對映規則,使得歷經藉該編碼音訊信號表示型態所表示之一編碼音訊信號之一給定數目樣本的最大音高變化,其係對第一取樣頻率係比對第二取樣頻率大,但限制條件為該第一取樣頻率係小於該第二取樣頻率。據此,相同碼字組集合係用以描述不同解碼時間扭曲值之範圍,其係良好調適用於不同取樣頻率。
於一較佳實施例中,該時間扭曲計算器係經組配來調適該對映規則,使得藉于一第一取樣頻率之該編碼時間扭曲資訊之碼字組之一給定集合所表示之歷經一段給定時間週期的最大音高變化,與藉於一第二取樣頻率之該編碼時間扭曲資訊之碼字組之該給定集合所表示之歷經一段給定時間週期的最大音高變化間之差異,對一第一取樣頻率與一第二取樣頻率間之差異達至少30%者係不大於10%。如此,依據本發明藉由對映規則之調適,可避免下述事實,一給定碼字組集合習知地表示針對不同取樣頻率之每一時間單位顯著不同的時間扭曲。如此,不同的碼字組數目可維持合理地少數,結果導致良好編碼效率,其中雖言如此,時間扭曲之編碼效率係調整配合取樣頻率。
於一較佳實施例中,該時間扭曲計算器係經組配來依據該取樣頻率資訊使用不同對映表用以將該等編碼時間扭曲資訊之碼字組對映至解碼時間扭曲值。藉由提供不同對映表,犧牲記憶體需求,可將解碼機制維持極為簡單。
於另一較佳實施例中,該時間扭曲計算器係經組配來將對一參考取樣頻率描述與該等編碼時間扭曲資訊之不同碼字組相關聯之解碼時間扭曲值的(參考)對映規則,調整配合與該參考取樣頻率不同之一實際取樣頻率。據此,可維持小量記憶體需求,原因在於針對單一參考取樣頻率,只需儲存與一不同碼字組集合相關聯之對映值(亦即解碼時間扭曲值)。業已發現使用小量運算努力即可調適對映值配合不同取樣頻率。
於一較佳實施例中,該時間扭曲計算器係經組配來依據該實際取樣頻率與該參考取樣頻率間之比,而定標(scale)一部分對映值,該部分係描述一時間扭曲。業已發現此種部分對映值之線性定標組成用以針對不同取樣頻率獲得對映值之特別有效的解決之道。
於一較佳實施例中,該等解碼時間扭曲值描述歷經由該編碼音訊信號表示型態所表示之編碼音訊信號之預定數目樣本的時間扭曲輪廓變化。此種情況下,該取樣位置計算器較佳係經組配來組合表示時間扭曲輪廓變化之多個解碼時間扭曲值,而導算出一扭曲輪廓節點值,使得所導算出之扭曲輪廓節點值之偏離一參考扭曲節點值係大於由該等解碼時間扭曲值中之單一者所表示的偏離。藉由組合多個解碼時間扭曲值,可能維持對一個別時間扭曲值所要求之範圍為夠小。如此提高時間扭曲值之編碼效率。同時,藉由調適對映規則,可能調整可表示之時間扭曲之範圍。
於一較佳實施例中,該等解碼時間扭曲值描述歷經由該編碼音訊信號表示型態所表示之編碼音訊信號之預定數目樣本之時間扭曲輪廓的相對變化。此種情況下,該時間扭曲計算器係經組配來從該等解碼時間扭曲值而導算出解碼時間扭曲資訊,使得解碼時間扭曲資訊描述該時間扭曲輪廓。使用描述歷經預定數目編碼音訊信號樣本之時間扭曲輪廓相對變化的時間扭曲值,與用以將編碼時間扭曲資訊之碼字組對映至解碼時間扭曲值之一對映規則的調適組合,獲致高編碼效率,原因在於可確保針對不同取樣頻率可編碼實質上相同或至少相似之時間扭曲(以oct/s為單位表示)之範圍,即便於取樣頻率改變之情況下,每個編碼音訊信號樣本之時間扭曲碼字組數目可仍維持常數亦如此。
於一較佳實施例中,該時間扭曲計算器係經組配來基於解碼時間扭曲值而運算一時間扭曲輪廓的支點。此種情況下,該時間扭曲計算器係經組配來在支點間內插而獲得時間扭曲輪廓作為解碼時間扭曲資訊。此種情況下,每個音訊框之解碼時間扭曲值數目係經預定決定且與取樣頻率獨立無關。據此,支點間之內插方案保持不變,而其有助於將運算複雜度維持為低。
依據本發明之一實施例提出一種用以提供一音訊信號之編碼表示型態之音訊信號編碼器。該音訊信號編碼器包含一時間扭曲輪廓編碼器,其係組配來將描述一時間扭曲輪廓之時間扭曲值對映至一編碼時間扭曲資訊。該時間扭曲輪廓編碼器係經組配來依據該音訊信號之一取樣頻率而調適用以將描述該時間扭曲輪廓之該等時間扭曲值對映至該等編碼時間扭曲資訊之碼字組之一對映規則。該音訊信號編碼器也包含一時間扭曲信號編碼器,其係組配來考慮由該時間扭曲輪廓資訊所描述之一時間扭曲而獲得該音訊信號之一頻譜之一編碼表示型態。此種情況下,該音訊信號之編碼表示型態包含該編碼時間扭曲資訊之碼字組、該頻譜之編碼表示型態、及描述該取樣頻率之一取樣頻率資訊。該音訊編碼器係極為適合用以提供用前文討論之音訊信號解碼器所使用的編碼音訊信號表示型態。此外,該音訊信號編碼器獲致前文有關音訊信號解碼器已經討論且係基於相同考量之相同優點。
依據本發明之另一實施例形成一種用以基於編碼音訊信號表示型態而提供解碼音訊信號表示型態之方法。
依據本發明之另一實施例形成一種用以提供音訊信號之編碼表示型態之方法。
依據本發明之另一實施例形成一種用以實現該等方法中之一者或二者之電腦程式。
後文將參考所含括之圖式描述依據本發明之實施例,附圖中:第1圖顯示依據本發明之一實施例,音訊信號編碼器之方塊示意圖;第2圖顯示依據本發明之一實施例,音訊信號解碼器之方塊示意圖;第3a圖顯示依據本發明之另一實施例,音訊信號編碼器之方塊示意圖;第3b1、3b2圖顯示依據本發明之另一實施例,音訊信號解碼器之方塊示意圖;第4a圖顯示依據本發明之一實施例,用以將編碼時間扭曲資訊對映至解碼時間扭曲值之一對映器之方塊示意圖;第4b圖顯示依據本發明之另一實施例,用以將編碼時間扭曲資訊對映至解碼時間扭曲值之一對映器之方塊示意圖;第4c圖顯示習知量化體系之扭曲之一表格表示型態;第4d圖顯示依據本發明之一實施例,針對不同取樣頻率碼字組指數對映至解碼時間扭曲值之對映之一表格表示型態;第4e圖顯示依據本發明之另一實施例,針對不同取樣頻率碼字組指數對映至解碼時間扭曲值之對映之一表格表示型態;第5a、5b圖顯示依據本發明之一實施例,抽取自音訊信號解碼器之方塊示意圖之細節;第6a、6b圖顯示依據本發明之一實施例,抽取自用以提供解碼音訊信號表示型態之一對映器之流程圖之細節;第7a1、7a2圖顯示依據本發明之一實施例,用於音訊解碼器之資料元素及輔助元素之定義之圖說;第7b圖顯示依據本發明之一實施例,用於音訊解碼器之常數之定義之圖說;第8圖顯示碼字組指數對映至相應的解碼時間扭曲值之對映之一表格表示型態;第9圖顯示用以在相等間隔扭曲節點間線性內插之演繹法則之假程式碼表示型態;第10a圖顯示輔助函數「warp_time_inv」之假程式碼表示型態;第10b圖顯示輔助函數「warp_inv_vec」之假程式碼表示型態;第11a、11b圖顯示用以運算樣本位置向量及變遷長度之演繹法則之假程式碼表示型態;第12圖顯示取決於窗序列及核心編碼器框長度之一合成窗長度N之值之一表格表示型態;第13圖顯示容許的窗序列之一矩陣表示型態;第14a、14b圖顯示用於「EIGHT_SHORT_SEQUENCE」型之窗序列之開窗及內部重疊-加法之演繹法則之假程式碼表示型態;第15圖顯示用於非屬「EIGHT_SHORT_SEQUENCE」型之其中窗序列之開窗及內部重疊-及-加法之演繹法則之假程式碼表示型態;第16圖顯示用於重複取樣之演繹法則之假程式碼表示型態;及第17a-17f圖顯示依據本發明之一實施例,該音訊串流之語法元素之表示型態。
1. 依據第1圖之時間扭曲音訊信號編碼器
第1圖顯示依據本發明之一實施例,一種時間扭曲音訊信號編碼器100之方塊示意圖。
音訊信號編碼器100係經組配來接收一輸入音訊信號110,及基於此而提供該輸入音訊信號110之一編碼表示型態112。該輸入音訊信號110之編碼表示型態112例如包含一編碼頻譜表示型態、一編碼時間扭曲資訊(其可標示以例如「tw_data」及其可例如包含碼字組tw_ratio[i])及一取樣頻率資訊。
音訊信號編碼器選擇性地可包含一時間扭曲分析器120,其可經組配來接收該輸入音訊信號110、分析該輸入音訊信號、及提供一時間扭曲輪廓資訊122,使得該時間扭曲輪廓資訊122例如描述該音訊信號110之音高之時間演變。但音訊信號編碼器100另可接收由位在音訊信號編碼器外部之一時間扭曲分析器所提供的時間扭曲輪廓資訊。
音訊信號編碼器100也包含一時間扭曲輪廓編碼器130,其係組配來接收時間扭曲輪廓資訊122,及基於此而提供編碼時間扭曲資訊132。舉例言之,時間扭曲輪廓編碼器130可接收描述該時間扭曲輪廓之時間扭曲值。該等時間扭曲值例如可描述一已標準化或未經標準化之時間扭曲輪廓之絕對值、或已標準化或未經標準化之時間扭曲輪廓之隨著時間之經過之相對變化。一般而言,時間扭曲輪廓編碼器130係經組配來將描述時間扭曲輪廓122之時間扭曲值對映至該編碼時間扭曲資訊132。
時間扭曲輪廓編碼器130係經組配來調適用以依據音訊信號之取樣頻率而將描述該時間扭曲輪廓之時間扭曲值對映至該編碼時間扭曲資訊132之碼字組之一對映規則。用於此項目的,時間扭曲輪廓編碼器130可接收取樣頻率資訊來藉此調適該對映關係134。
音訊信號編碼器100也包含一時間扭曲信號編碼器140,其係經組配來考慮由該時間扭曲輪廓資訊122所描述之時間扭曲而獲得該音訊信號110之一頻譜之編碼表示型態142。
結果,例如可使用一位元串流提供器而提供編碼音訊信號表示型態112,使得該輸入音訊信號110之編碼表示型態112包含該編碼時間扭曲資訊132之碼字組、該頻譜之編碼表示型態142、及描述該取樣頻率之一取樣頻率資訊152(例如,輸入音訊信號110之取樣頻率及/或於時域至頻域變換脈絡中由時間扭曲信號編碼器140所使用的(平均)取樣頻率)。
有關音訊信號編碼器100之功能,可謂於一音訊框(其中以音訊樣本表示,一音訊框之長度可等於由該時間扭曲信號編碼器所使用之時域至頻域變換之一變換長度)期間改變其音高之一音訊信號之頻譜,該頻譜可藉時間改變重複取樣而壓縮。據此,可依據時間扭曲輪廓資訊122而藉該時間扭曲信號編碼器140所執行之時間改變重複取樣結果導致(經重複取樣之音訊信號之)一頻譜,該頻譜可以比較原先輸入音訊信號110之頻譜更佳的位元率效率而編碼。
但於時間扭曲信號編碼器140所施加的時間扭曲係使用編碼時間扭曲資訊而發信號給依據第2圖之一音訊信號解碼器200。此外,可包含該等時間扭曲值對映至碼字組之時間扭曲資訊的編碼係依據該取樣頻率資訊而調適,使得該等時間扭曲值對映至碼字組之不同對映關係係用於輸入音訊信號110之不同取樣頻率,或用於時間扭曲信號編碼器140(或其時域至頻域變換)所操作的不同取樣頻率。
如此,對各個可藉時間扭曲信號編碼器140處理之可能的取樣頻率可選擇最高位元率效率之對映。此種調適合理,原因在於發現若描述時間扭曲輪廓之時間扭曲值對映至碼字組之對映規則匹配目前頻率,則編碼時間扭曲資訊可維持為小量(少數),即便於時間扭曲信號編碼器140使用多個可能的取樣頻率時亦如此。據此,在較小取樣頻率及較大取樣頻率兩種情況下,可確保不同碼字組之一小集合即足以編碼具有夠精細解析度及也具有夠大動態範圍的時間扭曲輪廓,即便每個音訊框之碼字組數目於不同取樣頻率維持常數亦如此(其又轉而提供一取樣頻率非相依性(independent)位元串流,及因而協助編碼音訊信號表示型態112之產生、儲存、剖析、及即時動態處理(on- the- fly- processing))。
有關對映134之調適之進一步細節將討論如下。
2. 依據第2圖之時間扭曲音訊信號解碼器
第2圖顯示依據本發明之一實施例,一種時間扭曲音訊信號解碼器200之方塊示意圖。
音訊信號解碼器200係經組配來基於編碼音訊信號表示型態210而提供一解碼音訊信號表示型態212。該編碼音訊信號表示型態210例如可包含一編碼頻譜表示型態214(其可等於由時間扭曲信號編碼器140所提供之編碼頻譜表示型態142)、一編碼時間扭曲資訊216(其例如可等於由時間扭曲輪廓編碼器130所提供之編碼時間扭曲資訊132)、及一取樣頻率資訊218(其例如可等於取樣頻率資訊152)。
音訊信號解碼器200包含一時間扭曲計算器230,其也可視為時間扭曲解碼器。時間扭曲計算器230係經組配來將編碼時間扭曲資訊216對映至一解碼時間扭曲資訊232。編碼時間扭曲資訊216例如可包含時間扭曲碼字組「tw_ratio[i]」,而該解碼時間扭曲資訊例如可呈描述一時間扭曲輪廓之時間扭曲輪廓資訊形式。時間扭曲計算器230係經組配來調適用以依據取樣頻率資訊218而將該編碼時間扭曲資訊216之(時間扭曲)碼字組對映至描述該解碼時間扭曲資訊之解碼時間扭曲值之一對映規則234。據此,針對由該取樣頻率資訊所傳訊的不同取樣頻率,可選擇該編碼時間扭曲資訊216之碼字組對映至描述該解碼時間扭曲資訊232之時間扭曲值之不同對映關係。
音訊信號解碼器200也包含一扭曲解碼器240,其係組配來接收該頻譜之編碼表示型態214,及基於該編碼頻譜表示型態214且依據該解碼時間扭曲資訊232而提供解碼音訊信號表示型態212。
據此,針對較高取樣頻率及較低取樣頻率二者,音訊信號解碼器200允許編碼時間扭曲資訊之有效率解碼,原因在於編碼時間扭曲資訊之碼字組對映至解碼時間扭曲值之對映關係係取決於取樣頻率之故。如此,針對較高取樣頻率可能獲得編碼音訊信號之高解析度,而針對較小取樣頻率仍然涵蓋每個時間單位夠大的時間扭曲,及同時對較小取樣頻率及較高取樣頻率二者使用相同的碼字組集合。如此,於較高取樣頻率及較小取樣頻率兩種情況下,該位元串流格式實質上係與取樣頻率獨立無關,而仍然可能以合宜準確度及動態範圍來描述該時間扭曲。
有關對映234之調適之進一步細節將敘述如下。又,有關扭曲解碼器240之進一步細節將描述如下。
3. 依據第3a圖之時間扭曲音訊信號編碼器
第3a圖顯示依據本發明之一實施例,時間扭曲音訊信號編碼器300之方塊示意圖。
依據第3圖之音訊信號編碼器300係類似依據第1圖之音訊信號編碼器100,因而相同信號及裝置係標示以相同元件符號。但第3a圖顯示有關時間扭曲信號編碼器140之進一步細節。
因本發明係有關時間扭曲音訊編碼及時間扭曲音訊解碼,將提出時間扭曲音訊信號編碼器140之細節的簡短綜述。時間扭曲音訊信號編碼器140係經組配來接收一輸入音訊信號110,及對一串列訊框提供該輸入音訊信號110之編碼頻譜表示型態142。時間扭曲音訊信號編碼器140包含一取樣單元或重複取樣單元140a,其係調整適用於取樣或重複取樣輸入音訊信號110而導算出用作為頻域變換之信號區塊(取樣表示型態)140d。取樣單元/重複取樣單元140a包含一取樣位置計算器140b,其係組配來運算樣本位置,該等樣本位置係調整適用於藉時間扭曲輪廓資訊122所描述之時間扭曲,因此若時間扭曲(或音高變異或基頻變異)非為零,則其在時間上為非等距。取樣單元或重複取樣單元140a也包含一取樣器或重複取樣器140c,其係組配來使用藉取樣位置計算器所得的時間上非等距樣本位置而取樣或重複取樣輸入音訊信號110之一部分(例如一音訊框)。
時間扭曲音訊信號編碼器140進一步包含一變換窗計算器140e,其係適用於針對由取樣單元或重複取樣單元140a所輸出的取樣或重複取樣表示型態140d而導算定標窗。定標窗資訊140f及取樣/重複取樣表示型態140d係輸入開窗器140g,其係適用於將由定標窗資訊140f所描述之定標窗適加至藉取樣單元/重複取樣單元140a所導算出之取樣或重複取樣表示型態140d。於其它實施例中,時間扭曲音訊信號編碼器140可額外地包含一頻域變換器140i來導算出輸入音訊信號110之取樣或重複取樣表示型態140h之頻域表示型態140j(例如呈變換係數或頻譜係數形式)。頻域表示型態140j例如可經過處理。此外,頻域表示型態140j或其後處理版本可使用編碼140k而編碼來獲得輸入音訊信號110之編碼頻譜表示型態142。
時間扭曲音訊信號編碼器140進一步使用輸入音訊信號110之音高輪廓,其中該音高輪廓可藉時間扭曲輪廓資訊122描述。該時間扭曲輪廓資訊122可提供給音訊信號編碼器300作為輸入資訊,或可藉音訊信號編碼器300而導算出。因此,音訊信號編碼器300可選擇性地包含一時間扭曲分析器120,其可操作為一音高估算器,其係用以導算出時間扭曲輪廓資訊122,因而時間扭曲輪廓資訊122構成一音高輪廓資訊或描述音高輪廓或基頻。
取樣單元/重複取樣單元140a可在輸入音訊信號110之連續表示型態上操作。但另外,取樣單元/重複取樣單元140a可在輸入音訊信號110之先前取樣表示型態上操作。於前一情況下,單元140a可取樣輸入音訊信號(及因而可視為取樣單元);而於後一情況下,單元140a可重複取樣該輸入音訊信號110之先前取樣表示型態(及因而可視為重複取樣單元)。取樣單元140a例如可調整適用於時間扭曲鄰近重疊音訊區塊,使得於取樣或重複取樣後,在各個輸入區塊內部,重疊部分具有常數音高或減低的音高變異。
變換窗計算器140e可選擇性地依據藉取樣器140a所執行的時間扭曲而導算針對音訊區塊(例如針對音訊框)之定標窗。為了達成此項目的,選擇性的調整區塊1401可存在來界定由取樣器所使用的扭曲規則,然後該扭曲規則也可提供給變換窗計算器140e。
於另一實施例中,調整區塊1401可被刪除,而時間扭曲輪廓資訊122所描述之音高輪廓可直接提供給變換窗計算器140e,其本身可進行適當計算。此外,取樣單元/重複取樣單元140a可進行通訊而傳送所施加之取樣給變換窗計算器140e,來允許計算適當定標窗。
但於若干其它實施例中,開窗實質上係與時間扭曲細節獨立無關。
由取樣單元/重複取樣單元140a所執行的時間扭曲使得藉單元140a所時間扭曲的及取樣的(或重複取樣的)經取樣(或經重複取樣)音訊區塊(或音訊框)之音高輪廓係比原先輸入音訊信號110之音高輪廓更加恆定。據此,因音高輪廓之時間變異所造成的頻譜模糊不清可藉單元140a執行的取樣或重複取樣而減少。如此,取樣或重複取樣音訊信號140d之頻譜係比較輸入音訊信號110之頻譜較少模糊不清(及典型地,顯示更為明確的頻譜峰及頻譜谷)。據此,比較以相同準確度來編碼輸入音訊信號110之頻譜所要求的位元率時,典型地可能使用較低位元率而編碼取樣(或重複取樣)音訊信號140d之頻譜。
此處須注意輸入音訊信號110典型地係逐一訊框處理,其中該等訊框依據特定需求可重疊或非重疊。舉例言之,輸入音訊信號之各個音訊框可藉單元140a而個別地取樣或重複取樣,來藉此獲得由時域樣本140d之個別集合所描述之一串列取樣(或重複取樣)框。又,藉由開窗區塊140g,可個別地施加開窗至由時域樣本140d之個別集合所表示之取樣或重複取樣框。此外,由開窗及重複取樣時域樣本140h之個別集合所描述的開窗及重複取樣框可藉變換140i而個別地變換成頻域。雖言如此,個別框間可能有若干(時間)重疊。
此外,須注意音訊信號110可以預定取樣頻率(亦稱取樣率)取樣。在藉取樣器或重複取樣器140c所執行的重複取樣中,可進行重複取樣使得輸入音訊信號110之重複取樣區塊(或訊框)可包含與該輸入音訊信號110之取樣頻率(或取樣率)相同(或至少近似相同,例如在±5%公差以內)的平均取樣頻率(或取樣率)。然而,音訊信號編碼器300另可經組配來以不同取樣頻率(或取樣率)的輸入音訊信號操作。
據此,於若干實施例中,由時域樣本140d所表示之重複取樣區塊或框之平均取樣頻率(或取樣率)可依據輸入音訊信號110之取樣頻率或取樣率而變化。
但當然也可能由時域樣本140d所表示之經取樣或重複取樣之音訊信號之區塊或框之平均取樣頻率或取樣率,係與輸入音訊信號110之取樣率不同,原因在於取樣器140a可依據操作員之期望或需要而執行取樣率變換及時間扭曲二者。
結果,可謂依據輸入音訊信號110之平均取樣頻率或取樣率及/或使用者的期望,由時域樣本140d所表示之經取樣或重複取樣之音訊信號之區塊或框可以不同取樣頻率或取樣率提供。
但於若干實施例中,就音訊樣本而言,由頻譜值140d集合所表示之經取樣或重複取樣之音訊信號之區塊或框可為常數,即便針對不同平均取樣頻率或取樣率亦如此。然而,於若干實施例中,兩種可能長度(以每區塊或每框的音訊樣本表示)間可進行切換,其中於第一(短區塊)模式之區塊長度或訊框長度可與平均取樣頻率獨立無關;及其中於第二(長區塊)模式之區塊長度或訊框長度(就音訊樣本而言)也可與平均取樣頻率獨立無關。
據此,藉開窗器140g所執行之開窗、藉變換器140i所執行之變換、及藉編碼器140k所執行之編碼實質上可與經取樣或重複取樣之音訊信號140d的平均取樣頻率或取樣率獨立無關(但短區塊模式與長區塊模式間可能的切換除外,該項切換可與平均取樣頻率或取樣率不相關地進行)。
總結而言,時間扭曲音訊信號編碼器140允許有效地編碼輸入音訊信號110,原因在於於輸入音訊信號110包含時間音高變異之情況下,比較該輸入音訊信號110,藉取樣器140a執行的取樣或重複取樣,結果導致經重複取樣之音訊信號140d具有較非模糊不清之頻譜;而其又轉而允許基於輸入音訊信號110之取樣/重複取樣及開窗版本140h,藉轉換器140i提供頻譜係數140j之位元率有效率編碼(藉編碼器140k)。
藉時間扭曲輪廓編碼器130以取樣頻率相依性方式執行的時間扭曲輪廓編碼,允許針對取樣/重複取樣音訊信號140d之不同取樣頻率(或平均取樣頻率)進行時間扭曲輪廓資訊122之位元率有效率編碼,使得包含該編碼頻譜表示型態142及編碼時間扭曲資訊132之一位元串流為位元率有效率。
4. 依據第3b圖之時間扭曲音訊信號解碼器
第3b圖顯示依據本發明之一實施例,音訊信號解碼器350之方塊示意圖。
音訊信號解碼器350係類似依據第2圖之音訊信號解碼器200,因而相同信號及裝置將標示以相同的元件符號而在此不再說明。
音訊信號解碼器350係經組配來用以接收第一時間扭曲及取樣音訊框之編碼頻譜表示型態,及也用以接收第二時間扭曲及取樣音訊框之編碼頻譜表示型態。概略言之,音訊信號解碼器350係經組配來用以接收經時間扭曲-重複取樣的音訊框之一串列編碼頻譜表示型態,其中該編碼頻譜表示型態例如可由音訊信號編碼器300之時間扭曲音訊信號編碼器140提供。此外,音訊信號解碼器350接收邊帶資訊,例如諸如編碼時間扭曲資訊216及取樣頻率資訊218。
扭曲解碼器240可包含一解碼器240a,其係組配來接收頻譜之編碼表示型態214,來解碼此一頻譜之編碼表示型態214與提供該頻譜之一解碼表示型態240b。扭曲解碼器240也包含一反變換器240c,其係經組配來接收該頻譜之解碼表示型態240b,及基於該頻譜之解碼表示型態240b而執行反變換,來藉此獲得由該編碼頻譜表示型態214所描述之經時間扭曲-取樣的音訊信號之一區塊或框之時域表示型態240d。扭曲解碼器240也包含一開窗器240e,其係經組配來施加一開窗至一區塊或框之時域表示型態240d而藉此獲得一區塊或框之開窗時域表示型態240f。扭曲解碼器240也包含一重複取樣器240g,其中該開窗時域表示型態240f係依據取樣位置資訊240h而重複取樣,來藉此獲得針對一區塊或框之經開窗且經重複取樣之時域表示型態240i。扭曲解碼器240也包含一重疊器-加法器240j,其係經組配來重疊及相加經開窗且經重複取樣之時域表示型態之隨後區塊或框,來藉此獲得經開窗且經重複取樣之時域表示型態240i之隨後區塊或框間的平順變遷,及因而由於重疊-及-加法操作結果而獲得解碼音訊信號表示型態212。
扭曲解碼器240包含一取樣位置計算器240k,其係自時間扭曲計算器(或時間扭曲解碼器)230接取解碼時間扭曲資訊232,及基於此而提供取樣位置資訊240h。據此,解碼時間扭曲資訊232描述藉重複取樣240g所執行的時間變化重複取樣。
選擇性地,扭曲解碼器240可包含一窗形調整器2401,其可經組配來依據默求而調整由開窗器240e所使用的窗形狀。舉例言之,窗形調整器2401可選擇性地接收解碼時間扭曲資訊232,及依據該解碼時間扭曲資訊232而調整窗。另外或此外,當扭曲解碼器240係可在此種長區塊模式與短區塊模式間切換時,窗形調整器2401可經組配來依據是否使用指示長區塊模式與短區塊模式之資訊而調整由開窗器240e所使用的窗形狀。另外或此外,當扭曲解碼器240係使用不同窗形狀時,窗形調整器2401可經組配來依據窗序列資訊而選擇由開窗器240e所使用的窗形狀。但須注意藉窗形調整器2401所執行之窗形調整須視為選擇性,而對本發明而言並非特別相關。
此外,扭曲解碼器240可選擇性地包含取樣率調整器240m,其可經組配來依據取樣頻率資訊218而控制窗形調整器2401及/或取樣位置計算器240k。但取樣率調整器240m可視為選擇性,而對本發明而言並非特別相關。
有關扭曲解碼器240之功能,可謂例如針對多個音訊框(或甚至針對若干音訊框之多個頻譜係數集合)之各者,可包含一變換係數(亦稱頻譜係數)集合之頻譜之編碼表示型態214係首先使用解碼器240a解碼,因而獲得解碼頻譜表示型態240b。該解碼音訊信號之一區塊或框之解碼頻譜表示型態240b係變換成該音訊內容之該區塊或框之時域表示型態(例如每一音訊框包含預定數目的時域樣本)。典型地,但非必要,該頻譜之解碼表示型態240b包含顯著峰及谷,原因在於此一頻譜可有效編碼故。結果,於單一區塊或框(其係相應於具有顯著峰及谷之頻譜)期間,時域表示型態240d包含較小音高變異。
開窗260e係施加至音訊信號之時域表示型態240d來允許重疊及加法操作。結果,已開窗之時域表示型態240f係以時間變化方式重複取樣,其中該重複取樣係於編碼音訊信號表示型態210中以編碼形式所含括的時間扭曲資訊進行。據此,假設編碼時間扭曲資訊描述一時間扭曲或相當地,描述一音高變異,經重複取樣之音訊信號表示型態240i典型地包含比較已開窗之時域表示型態240f顯著更大的音高變異。如此,在重複取樣器240g之輸出端可提供包含歷經單一音訊框之顯著音高變異之一音訊信號,即使反變換器240c之輸出信號240d包含歷經單一音訊框之顯著較小音高變異亦如此。
但扭曲解碼器240可經組配來處理使用不同取樣頻率所提供的編碼頻譜表示型態,及提供具有不同取樣頻率的解碼音訊信號表示型態212。但對多個不同取樣頻率,每一音訊框或音訊區塊之時域樣本數目可相同。但另外,扭曲解碼器240可在其中一音訊區塊包含較少數樣本(例如256樣本)之一短區塊模式與其中一音訊區塊包含較大量樣本(例如2048樣本)之一長區塊模式間切換。此種情況下,針對不同取樣頻率,短區塊模式中之每一音訊區塊的樣本數為相同;及針對不同取樣頻率,長區塊模式中之每一音訊區塊(或音訊框)的樣本數為相同。又,針對不同取樣頻率,每一音訊框之時間扭曲碼字組數目典型地為相同。據此,可達成一致位元串流格式,其係與取樣頻率實質上獨立無關(至少就每一音訊框編碼的時域樣本數目而言,及就每一音訊框之時間扭曲碼字組數目而言)。
但為了具有時間扭曲資訊之位元率有效率編碼及時間扭曲資訊之足夠解析度二者,時間扭曲資訊之編碼係調適於在音訊信號編碼器300該端之取樣頻率(其提供編碼音訊信號表示型態210)。結果,包含時間扭曲碼字組對映至解碼時間扭曲值之編碼時間扭曲資訊216的解碼係調適於取樣頻率。後文將描述有關時間扭曲資訊解碼之此一調適細節。
5. 時間扭曲編碼與解碼之調適
5.1. 構想綜論
後文中,將描述有關依據欲編碼之音訊信號或欲解碼之音訊信號的取樣頻率而做時間扭曲編碼與解碼之調適之細節。換言之,將描述取樣頻率相依性音高變異量化。為了協助瞭解,首先將描述若干習知構想。
於使用時間扭曲之習知音訊編碼器及音訊解碼器,對音高變異或扭曲之量化表對全部取樣頻率為固定。舉例言之,參考統一語音及音訊編碼之工作草稿6(「USAC之WD6」,ISO/IEC JTC1/SC29/WG11 N11213,2010)。由於樣本之更新距離(例如就音訊樣本而言,時間扭曲值從音訊編碼器傳送至音訊解碼器之距離)也係固定(於習知時間扭曲音訊編碼器/音訊解碼器及於依據本發明之時間扭曲音訊編碼器/音訊解碼器二者),故以較低位元率施加此種編碼方案,結果導致可涵蓋的實際音高變化之範圍減小(例如以每單位時間之音高變化表示)。於語音基頻之典型最大變化係低於約15 oct/s(每秒15八重元組)。
第4c圖之表顯示針對若干用在音訊編碼之取樣頻率,參考文獻[3]所述編碼方案無法對映期望的音高變異範圍,因而結果導致次選擇性編碼增益。為了顯示此項效應,第4c圖之表顯示針對參考文獻[3]所述音訊解碼器所使用的該表(例如用以將時間扭曲碼字組對映至解碼時間扭曲值之對映表)之不同取樣頻率的扭曲。獲得該等扭曲值(以oct/s表示)之公式為:
上式中w標示扭曲,prel
標示相對音高變化因數,fs
標示取樣頻率,np
標示一個框內的音高節點數目,及nf
標示樣本的框長度。
據此,第4c圖之表顯示用在參考文獻[3]所述音訊解碼器所使用的該量化方案之扭曲,其中nf
=1024及np
=16。
依據本發明,發現優異地係依據取樣頻率而調適扭曲值指數(可視為時間扭曲碼字組)對映至一相應時間扭曲值prel
之對映關係。換言之,發現前述問題的解決之道係對不同取樣頻率設計獨特量化表,使得以oct/s(每秒八重元組)表示之所涵蓋的音高變異或扭曲之絕對範圍對全部取樣頻率皆為相同(或至少約略相同)。發現此點例如可藉提供數個明確量化表,其各自用於鄰近取樣頻率之狹窄範圍而達成;或藉針對所使用的取樣頻率立即時動態量化表之計算而達成。
依據本發明之一實施例,此點可藉提供扭曲值之表,與藉由從上式變換公式而計算針對相對音高變化音數之量化表:
上式中,prel
標示相對音高變化因數,nf
標示樣本的框長度,w標示扭曲,fs
標示取樣頻率,及np
標示一個框內的音高節點數目。使用該公式,可獲得顯示於第4d圖之表的相對音高變化因數prel
。
參考第4d圖,第一欄480標示一指數,該指數可視為時間扭曲碼字組,及該指數可含括於表示該編碼音訊信號表示型態210之位元串流。第二欄482描述最大可表示之時間扭曲(以oct/s為單位表示),其可以與第一欄及個別列所示指數相關聯之np
及相對音高變化因數prel
標示。第三欄484描述針對2400赫茲(Hz)取樣頻率,於個別列之第一欄480所給定的指數相關聯之相對音高變化因數。第四欄486描述針對12000赫茲取樣頻率,於個別列之第一欄480所示指數相關聯之相對音高變化因數。如此可知,指數0、1及2係對應「負」音高變化(亦即針對音高減低)之相對音高變化因數prel
;指數值3係對應1之相對音高變化因數,其表示常數音高;及指數4、5、6及7係對應「正」音高變化,亦即針對音高增高之相對音高變化因數prel
。
但發現為了獲得相對音高變化因數,可有不同構想。發現獲得相對音高變化因數之另一方式係設計針對相對音高變化因數及相對應參考取樣率之一量化值表。對一給定取樣頻率之實際量化表可使用下式而簡易地從所設計之表中導算出:
prel
描述一目前取樣頻率fs
之相對音高變化因數。此外,prel,ref
描述一參考取樣頻率fs,ref
之相對音高變化因數。與不同指數(時間扭曲碼字組)相關聯之參考音高變化因數prel,ref
集合可儲存在表中,其中參考(相對)音高變化因數相應的參考取樣頻率fs,ref
為已知。
業已發現後式對藉上式所得結果給予合理的近似估計,同時屬於運算上較不複雜。
第4e圖顯示從參考相對音高變化因數prel,ref
所得的相對音高變化因數prel
之一表格表示型態,其中該表保有相對取樣頻率fs,ref
=24000赫茲。
第一欄490描述可視為時間扭曲碼字組之一指數。第二欄492描述第一欄490在個別列所顯示的指數(或碼字組)相關聯之參考相對音高變化因數prel,ref
。第三欄494及第四欄496描述針對24000赫茲(第三欄494)及12000赫茲(第四欄496)之取樣頻率fs
,與第一欄490指數相關聯之(相對)音高變化因數。如此可知,針對顯示於第三欄494之24000赫茲之取樣頻率fs
,相對音高變化因數prel
係與第二欄492所示參考相對音高變化因數相同,原因在於24000赫茲之取樣頻率fs
係等於參考取樣頻率fs,ref
。但第四欄496顯示在12000赫茲之取樣頻率fs
的相對音高變化因數prel
,其係依據如上方程式(3)而從第二欄492之參考相對音高變化因數而導算出。
當然,如前述,此等量化程序容易直捷地施加至例如
於頻率或音高上改變之任何其它表示型態,及也施加至編碼絕對音高或頻率值但未編碼其相對變化之方案。
第4a圖顯示可用於依據本發明之一實施例之一種調適性對映400之方塊示意圖。
調適性對映400可替代於音訊信號解碼器200之對映234或於音訊信號解碼器350之對映234。
調適性對映400係經組配來接收編碼時間扭曲資訊,如同例如包含時間扭曲碼字組「tw_ratio[i]」之所謂「tw_data」資訊。據此,調適性對映400可提供解碼時間扭曲值,例如解碼比值,其偶爾標示為值「warp_value_tbl[tw_ratio]」,及其偶爾也標示為相對音高變化因數prel
。調適性對映400也接收取樣頻率資訊,其描述例如由反變換230c所提供的時域表示型態240d之取樣頻率fs
,或由重複取樣240g所提供之經開窗且經重複取樣之音訊信號表示型態240i之平均取樣頻率,或解碼音訊信號表示型態212之取樣頻率。
調適性對映包含一對映器420,其係提供呈編碼時間扭曲資訊之時間扭曲碼字組之函數變化的一解碼時間扭曲值。對映規則選擇器430依據取樣頻率資訊406而從多個對映表432、434中選出一對映表用以由對映器420使用。舉例言之,若目前取樣頻率係等於24000赫茲,或若目前取樣頻率係係於24000赫茲之預定環境範圍內,則對映規則選擇器430選擇一對映表,其表示由第4d圖之表之第一欄480及第4d圖之表之第三欄484所定義之對映。相反地,若取樣頻率fs
係等於12000赫茲,或若取樣頻率fs
係係於12000赫茲之預定環境範圍內,則對映規則選擇器430選擇一對映表,其表示由第4d圖之表之第一欄480及第4d圖之表之第四欄486所定義之對映。
據此,當取樣頻率係等於24000赫茲時,時間扭曲碼字組(也標示為「指數」)0-7係對映至第4d圖之表之第三欄484所示個別解碼時間扭曲值(或相對音高變化因數);而當取樣頻率係等於12000赫茲時,係對映至第4d圖之表之第四欄486所示個別解碼時間扭曲值(或相對音高變化因數)。
要言之,依據取樣頻率,由對映規則選擇器430可選擇不同對映表,藉此將一時間扭曲碼字組(例如含括於表示解碼音訊信號之位元串流的值「指數」)對映至一解碼時間扭曲值(例如相對音高變化因數prel
,或時間扭曲值「warp_value_tbl」)。
5.3. 依據第4b圖之實現
第4b圖顯示可用於依據本發明之一實施例之一種調適性對映450之方塊示意圖。調適性對映450可替代於音訊信號解碼器200之對映234或於音訊信號解碼器350之對映234。調適性對映450係經組配來接收編碼時間扭曲資訊,其中適用前文有關調適性對映400之解說。
首先,調適性對映450係經組配來提供解碼時間扭曲值,其中也適用前文有關調適性對映400之解說。
調適性對映450包含一對映器470,其係經組配來接收編碼時間扭曲之碼字組及提供解碼時間扭曲值。調適性對映450也包含一對映值運算器或對映表運算器480。
於對映值運算器之情況下,解碼時間扭曲值係依據如上方程式(3)運算,用於此項目的,對映值運算器可包含一參考對映表482。該參考對映表482可例如描述由第4e圖之表之第一欄490及第二欄492所定義之對映資訊。據此,對映值運算器480及對映器470可協力合作使得基於參考對映表而針對一給定時間扭曲碼字組選擇一相應的參考相對音高變化因數,及使得對應該給定時間扭曲碼字組之相對音高變化因數prel
係依據方程式(3)使用有關目前取樣頻率fs
之資訊運算,及送返作為解碼時間扭曲值。此種情況下,甚至無需儲存調整適用於目前取樣頻率fs
之一對映表的全部分錄而犧牲針對各時間扭曲碼字組之解碼時間扭曲值(相對音高變化因數)之運算。
但另外,對映表運算器480可前置運算調適於目前取樣頻率fs
之一對映表供對映器470使用。舉例言之,對映表運算器可經組配來回應於發現選擇12000赫茲之目前取樣頻率而運算第4e圖第四欄496之分錄。針對12000赫茲之取樣頻率fs
而運算相對音高變化因數prel
可基於參考對映表(例如包含由第4e圖之表之第一欄490及第二欄492所定義之對映),且可使用方程式(3)執行。
據此,該經前置運算的對映表可用於將一時間扭曲碼字組對映至一解碼時間扭曲值。此外,每當重複取樣率改變時,可更新前置取樣對映表。
要言之,針對時間扭曲碼字組對映至解碼時間扭曲值之對映的對映規則可基於參考對映表482評估或運算,其中可執行調適於目前取樣頻率之一對映表的前置運算,或解碼時間扭曲值之即時動態運算。
6. 時間扭曲控制資訊之運算之細節描述
後文將敘述有關基於時間扭曲輪廓演變資訊之時間扭曲控制資訊的運算細節。
6.1. 依據第5a及5b圖之裝置
第5a及5b圖顯示用以基於時間扭曲輪廓演變資訊510,其可包含解碼時間扭曲資訊及其例如可包含由時間扭曲計算器230之對映234所提供的解碼時間扭曲值,而提供時間扭曲控制資訊512之裝置500之方塊示意圖。裝置500包含用以基於時間扭曲輪廓演變資訊510而提供重建時間扭曲輪廓資訊522之設備520,及用以基於重建時間扭曲輪廓資訊522而提供時間扭曲控制資訊512之一時間扭曲控制資訊計算器530。
後文中,將敘述設備520之結構及功能。
設備520包含一時間扭曲輪廓計算器540,其係經組配來接收時間扭曲輪廓演變資訊510,及基於此而提供新的時間扭曲輪廓部分資訊542。舉例言之,針對欲重建的音訊信號之各訊框,時間扭曲輪廓演變資訊之一集合(例如由對映234所提供之預定數目解碼時間扭曲值集合)可傳送至裝置500。雖言如此,於某些情況下,與欲重建立一音訊信號訊框相關聯之時間扭曲輪廓演變資訊510集合可用於多個音訊信號訊框之重建。同理,多個時間扭曲輪廓演變資訊集合可用於音訊信號之單一訊框的音訊內容的重建,容後詳述。總結而言,於某些情況下,時間扭曲輪廓演變資訊可以與欲重建的音訊信號變換域係數集合相等的速率更新(每一音訊信號框為1時間扭曲輪廓演變資訊510集合,及/或每一音訊信號框為一個時間扭曲輪廓部分)。
時間扭曲輪廓計算器540包含一扭曲節點值計算器544,其係經組配來基於多個時間扭曲輪廓比值(或時間序列)而運算多個扭曲輪廓節點值(或時間序列),其中該時間扭曲比值係包含於時間扭曲輪廓演變資訊510。換言之,由對映234所提供之解碼時間扭曲值可組成時間扭曲比值(例如warp_value_tbl[tw_ratio[]])。為了達成此項目的,扭曲節點值計算器544係經組配來於預定起始值(例如1)而開始提供時間扭曲輪廓節點值,及使用該時間扭曲比值而計算隨後之時間扭曲輪廓節點值,容後詳述。
又,扭曲節點值計算器544選擇性地包含一內插器548,其係經組配來在內插在隨後時間扭曲輪廓節點值間。如此,獲得新時間扭曲輪廓部分之描述542,其中該新時間扭曲輪廓部分典型地始於由扭曲節點計算器524所使用的預定起始值。此外,設備520係經組配來將所謂「上一個時間扭曲輪廓部分」及所謂的「目前時間扭曲輪廓部分」儲存在第5圖未顯示的記憶體。
但設備520包含一重新定標器550,其係經組配來重新定標「上一個時間扭曲輪廓部分」及「目前時間扭曲輪廓部分」而避免(或減少,或消除)整個時間扭曲輪廓區段之非連續,該整個區段係基於「上一個時間扭曲輪廓部分」、「目前時間扭曲輪廓部分」及「新時間扭曲輪廓部分」。為了達成此項目的,重新定標器550係經組配來接收「上一個時間扭曲輪廓部分」及「目前時間扭曲輪廓部分」之描述,及將「上一個時間扭曲輪廓部分」及「目前時間扭曲輪廓部分」一起重新定標來獲得「上一個時間扭曲輪廓部分」及「目前時間扭曲輪廓部分」之重新定標版本。有關此一功能細節敘述如下。
此外,重新定標器550也可經組配來例如從第5圖未顯示之一記憶體而接收在與「目前時間扭曲輪廓部分」相關聯之另一和值內部的與「上一個時間扭曲輪廓部分」相關聯之一和值。此等和值偶爾分別地標示為「last_warp_sum」及「cur_warp_sum」。重新定標器550係經組配來使用相應的時間扭曲輪廓部分所用來重新定標的相同重新定標因數而重新定標與時間扭曲輪廓部分相關聯之和值。據此獲得經重新定標之和值。
於某些情況下,設備520可包含一更新器560,其係經組配來重複地更新輸入重新定標器550之時間扭曲輪廓部分,及亦重複地更新輸入重新定標器550之和值。舉例言之,更新器560可經組配來以該訊框率更新該資訊。例如,目前訊框週期之「新時間扭曲輪廓部分」可用作為下一個訊框週期之「目前時間扭曲輪廓部分」。同理,目前訊框週期之「目前時間扭曲輪廓部分」可用作為下一個訊框週期之「上一個時間扭曲輪廓部分」。據此,形成記憶體有效率實現,原因在於目前訊框週期之「上一個時間扭曲輪廓部分」可在「目前訊框週期」完成時被拋棄。
綜上所述,設備520係經組配來針對各個訊框週期(),提供包含「新時間扭曲輪廓部分」、「重新定標目前時間扭曲輪廓部分」及「重新定標上一個時間扭曲輪廓部分」之描述的時間扭曲輪廓區段之描述。此外,設備520可針對各個訊框週期(前述特殊訊框週期除外),提供扭曲輪廓和值之一表示型態,例如包含「新時間扭曲輪廓部分」、「重新定標目前時間扭曲輪廓部分」及「重新定標上一個時間扭曲輪廓部分」。
時間扭曲控制資訊計算器530係經組配來基於由設備520所提供之重建時間扭曲輪廓資訊542而計算時間扭曲控制資訊512。舉例言之,時間扭曲控制資訊計算器530包含一時間輪廓計算器570,其係經組配來基於重建時間扭曲輪廓資訊而運算一時間輪廓572(例如時間扭曲輪廓之逐一樣本表示型態)。此外,時間扭曲控制資訊計算器530包含一樣本位置計算器574,其係設置來接收時間輪廓572,及基於此而提供例如呈樣本位置向量576之樣本位置資訊。樣本位置向量576描述例如由重複取樣器240g所執行的時間扭曲。
時間扭曲控制資訊計算器530也包含一變遷長度計算器,其係經組配來從重建時間扭曲輪廓資訊而導算變遷長度資訊。變遷長度資訊582例如可包含描述左變遷長度之資訊及描述右變遷長度之資訊。變遷長度例如可取決於由「上一個時間扭曲輪廓部分」、「目前時間扭曲輪廓部分」及「新時間扭曲輪廓部分」所描述之時間節段長度。舉例言之,若由「上一個時間扭曲輪廓部分」所描述的時間節點之時間延長係比由「目前時間扭曲輪廓部分」所描述的時間節點之時間延長短,或若由「新時間扭曲輪廓部分」所描述的時間節點之時間延長係比由「目前時間扭曲輪廓部分」所描述的時間節點之時間延長短,則變遷長度可縮短(比較內設變遷長度)。
此外,時間扭曲控制資訊計算器530可進一步包含一第一及最末位置計算器584,其係經組配來基於左及右變遷長度而計算所謂的「第一位置」及「最末位置」。若在此等位置外側區在開窗後係與零相同,且因而無需考慮時間扭曲,則「第一位置」及「最末位置」提高重複取樣器效率。此處須注意樣本位置向量576例如包含由重複取樣器240g所執行的時間扭曲所使用的(或甚至要求的)資訊。此外,左及右變遷長度582及「第一位置」及「最末位置」586組成例如由開窗器240e所使用的(或甚至要求的)資訊。
據此,可謂設備520及時間扭曲控制資訊計算器530可一起接管取樣率調整器240m、窗形調整器240l及取樣位置計算240k之功能。
6.2.依據第6a及6b圖之功能描述
後文中,將參考第6a及6b圖描述包含設備520及時間扭曲控制資訊計算器530之一音訊解碼器的功能。
第6a及6b圖顯示依據本發明之一實施例,一種用以解碼一音訊信號之編碼表示型態之流程圖。該方法600包含提供重建時間扭曲輪廓資訊,其中提供重建時間扭曲輪廓資訊包含將編碼時間扭曲資訊之碼字組對映604至解碼時間扭曲值;計算610扭曲節點值;內插620在扭曲節點值間;及重新定標630一或多個先前計算之扭曲輪廓部分及一或多個先前計算之扭曲輪廓和值。方法600進一步包含使用在步驟610及620所得「新時間扭曲輪廓部分」、重新定標之先前計算得的時間扭曲輪廓部分(「目前時間扭曲輪廓部分」、「上一個時間扭曲輪廓部分」)及選擇性地(也使用重新定標之計算得的扭曲輪廓和值來計算640時間扭曲控制資訊。結果,於步驟640可獲得時間輪廓資訊、及/或樣本位置資訊、及/或變遷長度資訊及/或第一位置及最末位置資訊。
該方法600進一步包含使用於步驟640所獲得之時間輪廓資訊執行650時間扭曲信號重建。後文將敘述有關時間扭曲信號重建之細節。
方法600也包含更新記憶體之一步驟660,容後詳述。
7. 演繹法則之細節描述
7.1. 綜論
後文中,將以細節描述依據本發明之一實施例,藉音訊解碼器所執行之若干演繹法則。為了達成此項目的,將參考第5a、5b、6a、6b、7a、7b、8、9、10a、10b、11、12、13、14、15及16圖做說明。
首先,參考第7a圖,顯示資料元素之定義之圖說及輔助元素之定義之圖說。此外,參考第7b圖,顯示常數之定義之圖說。
概略言之,可謂此處所述方法可用於依據時間扭曲而修改離散餘弦變換而編碼之音訊串流之解碼。如此,當針對一音訊串流允許TW-MDCT作動(可以旗標例如稱作為「twMDCT」旗標指示,其可包含於特定組態資訊)時,時間扭曲濾波器組及區塊切換可置換音訊解碼器之標準濾波器組及區塊切換。除了修改離散餘弦反變換(IMDCT)之外,時間扭曲濾波器組及區塊切換含有自任意間隔時間網格對映至正常規則間隔或線性間隔時間網格的時域至時域對映,及相應的窗形調適。
此處須注意基於頻譜之細碼表示型態214及也基於編碼時間扭曲資訊232,此處所述解碼演繹法則例如可藉扭曲解碼器240進行。
至於資料元素、輔助元素及常數之定義,請參考第7a及7b圖。
扭曲輪廓節點之碼簿指數係針對個別節點,如後文說明而解碼成扭曲值:
但時間扭曲碼字組「tw_ratio[k]」之對映至解碼時間扭
曲值,此處標示為「warp_value_tbl[tw_ratio[k]]」,於依據本發明之實施例係取決於取樣頻率。據此,於依據本發明之實施例並非單一對映表,反而對不同取樣頻率有個別對映表。
舉例言之,藉對映表存取與目前取樣頻率相應的對映表所送返之結果值「warp_value_tbl[tw_ratio[k]]」可被視為解碼時間扭曲值,且可基於含括於組成(或表示)編碼音訊信號表示型態210之一位元串流中的時間扭曲碼字組「tw_ratio[k]」,而藉對映234、藉調適性對映400或藉調適性對映450提供。
為了獲得逐一樣本(n_long samples)新扭曲輪廓資料「new_warp_contour[]」,現在使用一種演繹法則,其假程式碼表示型態係顯示於第9圖,扭曲節點值「warp_node_values[]」現在係在等間隔(interp_dist apart)節點內插。
在獲得此一框(例如目前框)之全扭曲輪廓前,來自於過去之緩衝值可被重新定標,使得過去扭曲輪廓「past_warp_contour[]」之最末扭曲值=1。
past_warp_contour
[i
]=past_warp_contour
[i
].norm_fac
for 0 i
<2.n_long
last_warp_sum
=last_warp_sum.norm_fac
cur_warp_sum
=cur_warp_sum.norm_fac
藉由串接(concatenating)過去扭曲輪廓「past_warp_contour」及新扭曲輪廓「new_warp_contour」,
獲得全扭曲輪廓「warp_contour[]」,及新扭曲和「new_warp_sum」係計算為全部新扭曲輪廓值「new_warp_contour[]」之和。
自扭曲輪廓「warp_contour[]」,運算在線性時間標度上扭曲樣本之樣本位置向量。對此依據如下方程式而產生時間扭曲輪廓:
此處
運用輔助功能「warp_inv_vec()」及「warp_time_vec()」,其假程式碼表示型態分別係顯示於第10a及10b圖,依據一個演繹法則,其假程式碼表示型態分別係顯示於第11圖,而運算樣本位置向量及變遷長度。
後文中,將簡短描述修改離散餘弦反變換。
修改離散餘弦反變換之分析表示法如下:
此處:n=樣本指數
i=窗指數
k=頻譜係數指數
N=基於window_sequence之窗長度
n0
=(N/2+1)/2
反變換之合成窗長度為語法元素「window_sequence」(其可含括於位元串流)及演繹法則脈絡之函數。合成窗長度例如係依據第12圖之表定義。
有意義之區塊變遷係列舉在第13圖之表。於一給定表單元之打鉤記號指示列舉在此一特定列的窗序列可接著為此一特定行所列舉之一窗序列。
有關容許的窗序列,須注意音訊解碼器例如可在不同長度窗間切換。但窗長度的切換與本發明並非特別相關。反而基於假設:有一型「only_long_sequence」窗序列及核心編碼器框長度係等於1024,可瞭解本發明。
此外,須注意音訊信號解碼器可在頻域編碼模式與時域編碼模式間切換。但此一可能性並非與本發明特別相關。反而,本發明係適用於只能處理頻域編碼模式之音訊信號編碼器,例如參考第1、2、3a及3b圖討論。
後文將描述可藉扭曲解碼器240及特別藉其開窗器240e而執行的開窗及區塊切換。
依據「window_shape」元素(其可含括於表示音訊信號之位元串流),使用不同的過取樣變換窗原型,及過取樣窗長度為N OS
=2.n_long
.OS_FACTOR_WIN
針對window_shape==1,藉凱舍-貝索導出(KBD)窗而給定窗係數如下:
此處:W’凱舍-貝索核心函數定義如下:
α=核心窗α因數,α=4
否則,針對window_shape==0,採用正弦窗如下:
針對全部各種窗序列,左窗部分所使用的原型係由前一區塊的窗形決定。下式表示此項事實:
同理,右窗形之原型係藉下式決定:
因已經決定變遷窗長度,只須在「EIGHT_SHORT_SEQUENCE」型窗序列與全部其它窗序列間區別。
於目前框屬於「EIGHT_SHORT_SEQUENCE」型之情況下,執行開窗及內部(框內部)重疊及加法。第14圖之C碼狀部分描述具有窗型「EIGHT_SHORT_SEQUENCE」的框之開窗及內部重疊及加法。
針對任何其它類型框,可使用演繹法則,其假程式碼型係顯示於第15圖。
後文中,將描述時間變異重複取樣,其可藉扭曲解碼器240,特別係藉重複取樣器240g執行。
開窗區塊z[]係使用如下脈衝響應,依據樣本位置(其係藉取樣位置計算240k基於由對映234所提供的解碼時間扭曲值而提供)重複取樣:
α=8
在重複取樣前,已開窗區塊在兩端以零填補:
重複取樣本身係描述在第16圖所示的假程式碼章節。
藉扭曲解碼器240之重疊器/加法器240j執行的重疊及相加對全部序列皆相同且以數學式描述如下:
後文中將說明記憶體更新。即便第3d圖並未顯示特定手段,但須注意記憶體更新可藉扭曲解碼器240執行。
解碼下一個框所需記憶體緩衝器係更新如下:past_warp_contour
[n
]=warp_contour
[n
+n_long
],for 0 n
<2.n_long
cur_warp_sum
=new_warp_sum
last_warp_sum
=cur_warp_sum
第一框解碼前或末框以光學LPC域編碼器編碼時,記憶體狀態係設定如下:past_warp_contour
[n
]=1,for 0 n
<2.n
_long
cur_warp_sum
=n_long
last_warp_sum
=n_long
綜上所述,已經描述解碼處理程序,其可藉扭曲解碼器240執行。如此可知,時域表示型態係如係對2048時域樣本之一音訊框提供,及隨後音訊框例如可重疊約50%,使得確保隨後音訊框之時域表示型態間的平順變遷。
例如NUM_TW_NODES=16解碼時間扭曲值之一集合例如可關聯各個音訊框(設該音訊框之時間扭曲為致動),而與音訊框之時域樣本之實際取樣頻率獨立無關。
後文中,將描述音訊串流,其包含一或多個音訊信號通道及一或多個時間扭曲輪廓之編碼表示型態。後文中描述的音訊串流例如攜載編碼音訊信號表示型態112或編碼音訊信號表示型態210。
第17a圖顯示所謂的「USAC_raw_data_block」資料串流元素之線圖表示型態,其可包含一信號頻道元素(SCE)、一成對頻道元素(CPE)、及一或多個信號頻道元素及/或一或多個成對頻道元素之組合。
「USAC_raw_data_block」典型地可包含一編碼音訊資料區塊,而額外時間扭曲輪廓資訊可於一分開資料串流元素提供。雖言如此,當然可能將部分時間扭曲輪廓值編碼成「USAC_raw_data_block」。
如由第17b圖可知,單一頻道元素典型地包含頻域頻道串流(「fd_channel_stream」),容後參考第17d圖詳加說明。
如由第17c圖可知,成對頻道元素(「channel_pair_element」)典型地包含多個頻域頻道串流。又,成對頻道元素可包含時間扭曲資訊,例如時間扭曲致動旗標(「tw_MDCT」),其可於組態資料串流元素中或在「USAC_raw_data_block」中傳送,及其判定時間扭曲資訊是否含括於成對頻道元素。舉例言之,「tw_MDCT」旗標指示時間扭曲為作動時,成對頻道元素可包含一旗標(「common_tw」),其指示成對頻道元素之音訊頻道是否具有一共通時間扭曲。若該旗標(「common_tw」)指示多個音訊頻道具有一共通時間扭曲,則一共通時間扭曲資訊
(「tw_data」)係含括在成對頻道元素,例如與頻域頻道串流分開。
現在參考第17d圖,描述頻域頻道串流。如由第17d圖可知,頻域頻道串流例如包含通用增益資訊。又,若時間扭曲為作動(旗標「tw_MDCT」為作動)且若對多個音訊信號頻道無共用時間扭曲資訊(旗標「common_tw」為非作動),則頻域頻道串流包含時間扭曲資料。
又頻域頻道串流也包含定標因數資料(「scale_factor_data」)及編碼頻譜資料(例如算術編碼頻譜資料「ac_spectral_data」)。
現在參考第17e圖,簡短討論時間扭曲資料之語法。時間扭曲資料例如可選擇性地包含一旗標(例如「tw_data_present」或「active_pitch_data」指示是否存在有時間扭曲資料。若存在有時間扭曲資料(亦即時間扭曲輪廓非為平坦),則時間扭曲資料可包含多個編碼時間扭曲比值序列(例如「tw_ratio[i]」或「pitchIdx[i]」),其例如可依據取樣率相依性碼簿表編碼,如前文已述。
如此,時間扭曲資料可包含一旗標,指示當時間扭曲輪廓為常數(時間扭曲比約等於1.000)時,並無可藉音訊信號編碼器設定的時間扭曲資料可資利用。相反地,當時間扭曲輪廓為可變時,隨後時間扭曲輪廓節點間之比可使用組成「tw_ratio」資訊的碼簿指數編碼。
第17f圖顯示算術編碼頻譜資料「ac_spectral_data()」之語法之線圖表示型態。算術編碼頻譜資料係依據非相關
性旗標(此處:「indepFlag」)狀態而編碼,該旗標若為作動,則指示算術編碼資料係與前一框的算術編碼資料獨立無關。若非相關性旗標「indepFlag」為作動,則算術復置旗標「arith_reset_flag」設定為作動。否則,算術復置旗標之值係取決於算術編碼頻譜資料之一位元。
此外,算術編碼頻譜資料區塊「ac_spectral_data()」包含一或多個算術編碼資料單元,其中算術編碼資料「arith_data()」單元數目係取決於目前框之區塊(或窗)數目。於一長區塊模式中,每個音訊框只有一個窗。但於一短區塊模式中,每個音訊框例如可有八個窗。算術編碼頻譜資料「arith_data」之各個單元包含一頻譜係數集合,其可用作為頻域至時域變換之輸入信號,該項變換例如可藉反變換240c執行。
每單元算術編碼資料「arith_data」之頻譜係數數目例如可與取樣頻率獨立無關,但可取決於區塊長度模式(短區塊模式「EIGHT_SHORT_SEQUENCE」或長區塊模式「ONLY_LONG_SEQUENCE」)。
綜上所述,業已描述時間扭曲修改離散餘弦變換(TW-MDCT)之改良。前述發明係關時間扭曲MDCT變換編碼器脈絡,及形成用以改良時間扭曲MDCT變換編碼器之效能之方法。有關時間扭曲修改離散餘弦變換細節,請注意參考文獻[1]及[2]。
此種時間扭曲MDCT變換編碼器之一項具體實現係在
正在進行中的MPEG USAC音訊編碼標準化工作(例如參考參考文獻[3])。所使用之時間扭曲MDCT實現細節請參照參考文獻[4]。
此外,須注意此處描述之音訊信號編碼器及音訊信號解碼器包含國際專利申請案WO/2010/003583、WO/2010/003618、WO/1010/003581及WO/2010/003582所述特徵結構。四件國際專利申請案之教示係明確地以引用方式併入此處。該四件國際專利申請案所揭示之特徵結構及特性可併入依據本發明之實施例。
雖然已經就裝置脈絡描述若干構面,但顯然此等構面也表示相應方法之描述,此處一區塊或一裝置係對應一方法步驟或一方法步驟之特徵結構。同理,於一方法步驟脈絡所描述之構面也係表示對應裝置之對應區塊或項目或特數之描述。部分或全部方法步驟可藉(或使用)硬體裝置例如,微處理器、可程式電腦或電子電路執行。於若干實施例中,最主要方法步驟中之某一個或某些個可藉此種裝置執行。
本發明之編碼音訊信號可儲存在一數位儲存媒體或可在傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路上傳輸。
依據某些實現要求,本發明之實施例可在硬體或軟體實現。該項實現可使用數位儲存媒體執行,該等媒體例如為軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM、
或快閃(FLASH)記憶體,其上儲存有可電子式讀取控制信號,該等信號與可程式規劃電腦系統協力合作(或可協力合作)來執行個別方法。因此該數位儲存媒體可為電腦讀取。
依據本發明之若干實施例包含一種具有可電子式讀取控制信號之資料載體,其可與可程式規劃電腦系統協力合作因而執行此處所述方法中之一者。
一般而言,本發明之實施例可實現為具有程式碼之一種電腦程式產品,該程式碼係可操作來當該電腦程式產品在一電腦上跑時執行該等方法中之一者。該程式碼例如可儲存在機器可讀取載體上。
其它實施例包含儲存在機器可讀取載體上用以執行此處所述方法中之一者之該電腦程式。
換言之,因此本發明方法之一實施例為一種具有一程式碼之電腦程式,當該電腦程式在一電腦上跑時該程式碼係用以執行此處所述方法中之一者。
因此本發明方法之又一實施例為一種資料載體(或數位儲存媒體,或電腦可讀取媒體)包含記錄於其上之用以執行此處所述方法中之一者的電腦程式。
因此本發明方法之又一實施例為一種表現用以執行此處所述方法中之一者的電腦程式之資料串流或一串列信號。該資料串流或串列信號例如可經組配來透過資料通訊連結,例如透過網際網路傳輸。
又一實施例包含一種組配來或適用於執行此處所述方法中之一者之處理裝置,例如電腦或可程式規劃邏輯裝置。
又一實施例包含一種電腦,其上安裝有用以執行此處所述方法中之一者之電腦程式。
依據本發明之又一實施例包含組配來傳輸(例如電子式或光學式)用以執行此處所述方法中之一者之電腦程式給一接收器之一種裝置或系統。該接收器例如可為電腦、行動裝置、記憶體元件等。該裝置或系統例如可包含一種用來將電腦程式傳輸至接收器之檔案伺服器。
於若干實施例中,可使用可程式規劃邏輯裝置(例如場可程式規劃閘陣列)來執行此處所述方法中之部分或全部功能。於若干實施例中,場可程式規劃閘陣列可與微處理器協力合作來執行此處所述方法中之一者。一般而言,該等方法較佳係藉任一種硬體裝置執行。
前述實施例僅供舉例說明本發明之原理。須瞭解此處所述配置及細節之修改及變異為熟諳技藝人士顯然易知。因此,本發明意圖僅受隨附之申請專利範圍之範圍所限,而非受此處藉由實施例之描述及解說所呈現的特定細節所限。
[1] Bernd Edler et.al., “Time Warped MDCT”, US 61/042,314, Provisional application for patent,
[2] L. Villemoes, “Time Warped Transform Coding of Audio Signals”, PCT/EP2006/010246, International. patent application, November 2005.
[3] “WD6 of USAC”, ISO/IEC JTC1/SC29/WG11 N11213, 2010
[4] Bernd Edler et. al., “A Time-Warped MDCT Approach to Speech Transform Coding”, 126th AES Convention, Munich, May 2009, preprint 7710
[5] Nikolaus Meine, “Vektorquantisierung und kontextabhängige arithmetische Codierung für MPEG-4 AAC”, VDI, Hannover, 2007
100、300‧‧‧時間扭曲音訊信號編碼器
110‧‧‧輸入音訊信號
112‧‧‧編碼表示型態
120‧‧‧時間扭曲分析器
122‧‧‧時間扭曲輪廓資訊
130‧‧‧時間扭曲輪廓編碼器
132、216‧‧‧編碼時間扭曲資訊
134、234‧‧‧對映關係、對映規則
140‧‧‧時間扭曲音訊信號編碼器
140a‧‧‧取樣單元/重複取樣單元
140b、240k‧‧‧取樣位置計算器
140c、240g‧‧‧取樣器/重複取樣器
140d‧‧‧取樣或重複取樣表示型態
140e‧‧‧變換窗計算器
140f、2401‧‧‧定標窗資訊、窗形調整器
140g、240e‧‧‧開窗器
140h、240i‧‧‧開窗及重複取樣時域樣本、經開窗且經重複取樣之時域表示型態
140i‧‧‧頻域變換器
140j‧‧‧頻域表示型態
140k‧‧‧編碼器
140l‧‧‧調整器
142、214‧‧‧編碼頻譜表示型態
152、218‧‧‧取樣頻率資訊
200、350‧‧‧音訊信號解碼器
210‧‧‧編碼音訊信號表示型態
212‧‧‧解碼音訊信號表示型態
230‧‧‧時間扭曲計算器
232‧‧‧解碼時間扭曲資訊
240‧‧‧扭曲解碼器
240a‧‧‧解碼器
240b‧‧‧解碼表示型態
240c‧‧‧反變換器
240d‧‧‧時域表示型態
240f‧‧‧開窗時域表示型態
240h‧‧‧取樣位置資訊
240j‧‧‧重疊器-加法器
240m‧‧‧取樣率調整器
400、450‧‧‧調適性對映
406‧‧‧取樣頻率資訊
420、470‧‧‧對映器
430‧‧‧對映規則選擇器
432、434‧‧‧對映表
480‧‧‧對映值運算器、對映表運算器
482‧‧‧參考對映表
480-496‧‧‧欄
500‧‧‧裝置
510‧‧‧時間扭曲輪廓演變資訊
512‧‧‧時間扭曲控制資訊
520‧‧‧設備
522‧‧‧重建時間扭曲輪廓資訊
530‧‧‧時間扭曲控制資訊計算器
540‧‧‧時間扭曲輪廓計算器
542‧‧‧新時間扭曲輪廓部分資訊
544‧‧‧扭曲節點值計算器
548‧‧‧內插器
550‧‧‧重新定標器
560‧‧‧更新器
570‧‧‧時間輪廓計算器
572‧‧‧時間輪廓
574‧‧‧樣本位置計算器
576‧‧‧樣本位置向量
580‧‧‧變遷長度計算器
582‧‧‧左及右變遷長度
584‧‧‧第一及最末位置計算器
586‧‧‧「第一位置」及「最末位置」
600‧‧‧方法
604、610、620、630、650、660‧‧‧
步驟
第1圖顯示依據本發明之一實施例,音訊信號編碼器之方塊示意圖;第2圖顯示依據本發明之一實施例,音訊信號解碼器之方塊示意圖;第3a圖顯示依據本發明之另一實施例,音訊信號編碼器之方塊示意圖;第3b1、3b2圖顯示依據本發明之另一實施例,音訊信號解碼器之方塊示意圖;第4a圖顯示依據本發明之一實施例,用以將編碼時間扭曲資訊對映至解碼時間扭曲值之一對映器之方塊示意圖;第4b圖顯示依據本發明之另一實施例,用以將編碼時間扭曲資訊對映至解碼時間扭曲值之一對映器之方塊示意圖;第4c圖顯示習知量化體系之扭曲之一表格表示型態;第4d圖顯示依據本發明之一實施例,針對不同取樣頻率碼字組指數對映至解碼時間扭曲值之對映之一表格表示
型態;第4e圖顯示依據本發明之另一實施例,針對不同取樣頻率碼字組指數對映至解碼時間扭曲值之對映之一表格表示型態;第5a、5b圖顯示依據本發明之一實施例,抽取自音訊信號解碼器之方塊示意圖之細節;第6a、6b圖顯示依據本發明之一實施例,抽取自用以提供解碼音訊信號表示型態之一對映器之流程圖之細節;第7a1、7a2圖顯示依據本發明之一實施例,用於音訊解碼器之資料元素及輔助元素之定義之圖說;第7b圖顯示依據本發明之一實施例,用於音訊解碼器之常數之定義之圖說;第8圖顯示碼字組指數對映至相應的解碼時間扭曲值之對映之一表格表示型態;第9圖顯示用以在相等間隔扭曲節點間線性內插之演繹法則之假程式碼表示型態;第10a圖顯示輔助函數「warp_time_inv」之假程式碼表示型態;第10b圖顯示輔助函數「warp_inv_vec」之假程式碼表示型態;第11a、11b圖顯示用以運算樣本位置向量及變遷長度之演繹法則之假程式碼表示型態;第12圖顯示取決於窗序列及核心編碼器框長度之一合成窗長度N之值之一表格表示型態;
第13圖顯示容許的窗序列之一矩陣表示型態;第14a、14b圖顯示用於「EIGHT_SHORT_SEQUENCE」型之窗序列之開窗及內部重疊-加法之演繹法則之假程式碼表示型態;第15圖顯示用於非屬「EIGHT_SHORT_SEQUENCE」型之其中窗序列之開窗及內部重疊-及-加法之演繹法則之假程式碼表示型態;第16圖顯示用於重複取樣之演繹法則之假程式碼表示型態;及第17a-17f圖顯示依據本發明之一實施例,該音訊串流之語法元素之表示型態。
200‧‧‧音訊信號解碼器
210‧‧‧編碼音訊信號表示型態
212‧‧‧解碼音訊信號表示型態
214‧‧‧編碼頻譜表示型態
216‧‧‧編碼時間扭曲資訊
218‧‧‧取樣頻率資訊
230‧‧‧時間扭曲計算器
232‧‧‧解碼時間扭曲資訊
234‧‧‧扭曲
240‧‧‧扭曲解碼器
Claims (17)
- 一種音訊信號解碼器,其係經組配來基於包含一取樣頻率資訊、一編碼時間扭曲資訊及一編碼頻譜表示型態之一編碼音訊信號表示型態而提供一解碼音訊信號表示型態,該音訊信號解碼器包含:一時間扭曲計算器,其係經組配來將該編碼時間扭曲資訊對映至一解碼時間扭曲資訊,其中該時間扭曲計算器係經組配來依據該取樣頻率資訊而調適用以將該編碼時間扭曲資訊之碼字組對映至描述該解碼時間扭曲資訊的解碼時間扭曲值之一對映規則;及一扭曲解碼器,其係經組配來基於該編碼頻譜表示型態及依據該解碼時間扭曲資訊而提供該解碼音訊信號表示型態。
- 如請求項1之音訊信號解碼器,其中該編碼時間扭曲資訊之該等碼字組描述一時間扭曲輪廓之一時間演變,及其中該時間扭曲計算器係經組配來對藉由該編碼音訊信號表示型態所表示之一編碼音訊信號之一音訊框,評估該編碼時間扭曲資訊之碼字組之預定數目,其中該碼字組之預定數目係與該編碼音訊信號之一取樣頻率獨立無關。
- 如請求項1或2之音訊信號解碼器,其中該時間扭曲計算器係經組配來調適該對映規則,使得該編碼時間扭曲資訊之碼字組之一給定集合的碼字組所對映於其上之一 解碼時間扭曲值範圍對一第一取樣頻率係比對一第二取樣頻率大,但限制條件為該第一取樣頻率係小於該第二取樣頻率。
- 如請求項3之音訊信號解碼器,其中該等解碼時間扭曲值係為表示一時間扭曲輪廓之值的時間扭曲輪廓值或表示一時間扭曲輪廓之值的一絕對變化或一相對變化之時間扭曲輪廓變化值。
- 如請求項1之音訊信號解碼器,其中該時間扭曲計算器係經組配來調適該對映規則,使得歷經藉由該編碼音訊信號表示型態所表示之一編碼音訊信號之一給定數目樣本的一最大音高變化,其係可以該編碼時間扭曲資訊之碼字組之一給定集合表示者且對一第一取樣頻率係比對一第二取樣頻率大,但限制條件為該第一取樣頻率係小於該第二取樣頻率。
- 如請求項1之音訊信號解碼器,其中該時間扭曲計算器係經組配來調適該對映規則,使得藉由一第一取樣頻率之該編碼時間扭曲資訊之碼字組之一給定集合所表示之歷經一段給定時間週期的一最大音高變化,與藉由一第二取樣頻率之該編碼時間扭曲資訊之碼字組之該給定集合所表示之歷經該段給定時間週期的一最大音高變化間之差異,對一第一取樣頻率與一第二取樣頻率間之差異達至少30%者係不大於10%。
- 如請求項1之音訊信號解碼器,其中該時間扭曲計算器係經組配來依據該取樣頻率資訊使用不同對映表用以 將該編碼時間扭曲資訊之碼字組對映至解碼時間扭曲值。
- 如請求項1之音訊信號解碼器,其中該時間扭曲計算器係經組配來將對一參考取樣頻率描述與該編碼時間扭曲資訊之不同碼字組相關聯之解碼時間扭曲值的參考對映值,調適為與該參考取樣頻率不同之一實際取樣頻率,而獲得適應性對映值。
- 如請求項8之音訊信號解碼器,其中該時間扭曲計算器係經組配來依據該實際取樣頻率與該參考取樣頻率間之比而定標(scale)描述一時間扭曲之該等參考對映值之一部分。
- 如請求項1之音訊信號解碼器,其中該等解碼時間扭曲值描述歷經藉由該編碼音訊信號表示型態所表示之該編碼音訊信號之預定數目樣本的一時間扭曲輪廓變化,及其中該音訊信號解碼器包含一取樣位置計算器,其中該取樣位置計算器係經組配來組合表示該時間扭曲輪廓變化之多個解碼時間扭曲值,而導算出一扭曲輪廓節點值,使得所導算出之該扭曲輪廓節點值之與一參考扭曲節點值之一偏離係大於藉由該等解碼時間扭曲值中之單一者所表示的一偏離。
- 如請求項1之音訊信號解碼器,其中該等解碼時間扭曲值描述歷經藉由該編碼音訊信號表示型態所表示之該編碼音訊信號之預定數目樣本的一時間扭曲輪廓的一 相對變化,及其中該音訊信號解碼器包含一取樣位置計算器,其中該取樣位置計算器係經組配來從該等解碼時間扭曲值而導算出一時間扭曲輪廓資訊。
- 如請求項1之音訊信號解碼器,其中該音訊信號解碼器包含一取樣位置計算器,其中該取樣位置計算器係經組配來基於該等解碼時間扭曲值而運算一時間扭曲輪廓之支點,及其中該取樣位置計算器係經組配來在該等支點間內插而獲得該時間扭曲輪廓,及其中每個音訊框之多個解碼時間扭曲值係與該取樣頻率獨立無關。
- 一種音訊信號編碼器,其係用以提供一音訊信號之一編碼表示型態,該音訊信號編碼器包含:一時間扭曲輪廓編碼器,其係經組配來將描述一時間扭曲輪廓之時間扭曲值對映至一編碼時間扭曲資訊,其中該時間扭曲輪廓編碼器係經組配來依據該音訊信號之一取樣頻率而調適用以將描述該時間扭曲輪廓之該等時間扭曲值對映至該編碼時間扭曲資訊之碼字組之一對映規則;及一時間扭曲信號編碼器,其係經組配來考慮藉由該時間扭曲輪廓資訊所描述之一時間扭曲而獲得該音訊信號之一頻譜之一編碼表示型態,其中該音訊信號之該編碼表示型態包含該編碼時 間扭曲資訊之該等碼字組、該頻譜之該編碼表示型態、及描述該取樣頻率之一取樣頻率資訊。
- 一種用以基於包含取樣頻率資訊、編碼時間扭曲資訊及編碼頻譜表示型態之編碼音訊信號表示型態而提供解碼音訊信號表示型態之方法,該方法包含:將該編碼時間扭曲資訊對映至一解碼時間扭曲資訊,其中用以將該編碼時間扭曲資訊之碼字組對映至描述該解碼時間扭曲資訊的解碼時間扭曲值之一對映規則係依據該取樣頻率資訊而調適;及基於該編碼頻譜表示型態及依據該解碼時間扭曲資訊而提供該解碼音訊信號表示型態。
- 一種用以提供音訊信號之編碼表示型態之方法,該方法包含:將描述一時間扭曲輪廓之時間扭曲值對映至一編碼時間扭曲資訊,其中用以將描述該時間扭曲輪廓之該等時間扭曲值對映至該編碼時間扭曲資訊之碼字組之一對映規則係依據該音訊信號之一取樣頻率而調適;考慮藉由該時間扭曲輪廓資訊所描述之一時間扭曲而獲得該音訊信號之一頻譜之一編碼表示型態,其中該音訊信號之該編碼表示型態包含該編碼時間扭曲資訊之該等碼字組、該頻譜之該編碼表示型態及描述該取樣頻率之一取樣頻率資訊。
- 一種用以提供解碼音訊信號表示型態之電腦程式,其係 用以當該電腦程式在該電腦上跑時執行如請求項14之方法。
- 一種用以提供音訊信號之編碼表示型態之電腦程式,其係用以當該電腦程式在該電腦上跑時執行如請求項15之方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31250310P | 2010-03-10 | 2010-03-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201203224A TW201203224A (en) | 2012-01-16 |
TWI455113B true TWI455113B (zh) | 2014-10-01 |
Family
ID=43829343
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100107905A TWI441170B (zh) | 2010-03-10 | 2011-03-09 | 音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式 |
TW100107904A TWI455113B (zh) | 2010-03-10 | 2011-03-09 | 音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100107905A TWI441170B (zh) | 2010-03-10 | 2011-03-09 | 音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式 |
Country Status (16)
Country | Link |
---|---|
US (2) | US9129597B2 (zh) |
EP (2) | EP2539893B1 (zh) |
JP (2) | JP5625076B2 (zh) |
KR (2) | KR101445296B1 (zh) |
CN (2) | CN102884572B (zh) |
AR (2) | AR080396A1 (zh) |
AU (2) | AU2011226143B9 (zh) |
BR (2) | BR112012022744B1 (zh) |
CA (2) | CA2792500C (zh) |
ES (2) | ES2458354T3 (zh) |
HK (2) | HK1179743A1 (zh) |
MX (2) | MX2012010469A (zh) |
PL (2) | PL2539893T3 (zh) |
RU (2) | RU2586848C2 (zh) |
TW (2) | TWI441170B (zh) |
WO (2) | WO2011110591A1 (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2083418A1 (en) * | 2008-01-24 | 2009-07-29 | Deutsche Thomson OHG | Method and Apparatus for determining and using the sampling frequency for decoding watermark information embedded in a received signal sampled with an original sampling frequency at encoder side |
US20120029926A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
CN103035249B (zh) * | 2012-11-14 | 2015-04-08 | 北京理工大学 | 一种基于时频平面上下文的音频算术编码方法 |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US10499176B2 (en) | 2013-05-29 | 2019-12-03 | Qualcomm Incorporated | Identifying codebooks to use when coding spatial components of a sound field |
CN105474313B (zh) | 2013-06-21 | 2019-09-06 | 弗劳恩霍夫应用研究促进协会 | 时间缩放器、音频解码器、方法和计算机可读存储介质 |
KR101953613B1 (ko) | 2013-06-21 | 2019-03-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램 |
ES2716756T3 (es) * | 2013-10-18 | 2019-06-14 | Ericsson Telefon Ab L M | Codificación de las posiciones de los picos espectrales |
CA2925734C (en) * | 2013-10-18 | 2018-07-10 | Guillaume Fuchs | Coding of spectral coefficients of a spectrum of an audio signal |
FR3015754A1 (fr) * | 2013-12-20 | 2015-06-26 | Orange | Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
BR112016020988B1 (pt) * | 2014-03-14 | 2022-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Método e codificador para codificação de um sinal de áudio, e, dispositivo de comunicação |
US10770087B2 (en) * | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN105070292B (zh) * | 2015-07-10 | 2018-11-16 | 珠海市杰理科技股份有限公司 | 音频文件数据重排序的方法和系统 |
CN107710323B (zh) * | 2016-01-22 | 2022-07-19 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
EP3306609A1 (en) | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
EP3701523B1 (en) | 2017-10-27 | 2021-10-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise attenuation at a decoder |
WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
US20210192681A1 (en) * | 2019-12-18 | 2021-06-24 | Ati Technologies Ulc | Frame reprojection for virtual reality and augmented reality |
US11776562B2 (en) * | 2020-05-29 | 2023-10-03 | Qualcomm Incorporated | Context-aware hardware-based voice activity detection |
TWI825492B (zh) * | 2020-10-13 | 2023-12-11 | 弗勞恩霍夫爾協會 | 對多個音頻對象進行編碼的設備和方法、使用兩個以上之相關音頻對象進行解碼的設備和方法、電腦程式及資料結構產品 |
CN114488105B (zh) * | 2022-04-15 | 2022-08-23 | 四川锐明智通科技有限公司 | 一种基于运动特征及方向模板滤波的雷达目标检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100607A1 (en) * | 2005-11-03 | 2007-05-03 | Lars Villemoes | Time warped modified transform coding of audio signals |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4196235B2 (ja) * | 1999-01-19 | 2008-12-17 | ソニー株式会社 | オーディオデータ処理装置 |
DE60018246T2 (de) * | 1999-05-26 | 2006-05-04 | Koninklijke Philips Electronics N.V. | System zur übertragung eines audiosignals |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US20040098255A1 (en) * | 2002-11-14 | 2004-05-20 | France Telecom | Generalized analysis-by-synthesis speech coding method, and coder implementing such method |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
JP4364544B2 (ja) * | 2003-04-09 | 2009-11-18 | 株式会社神戸製鋼所 | 音声信号処理装置及びその方法 |
UA90506C2 (ru) * | 2005-03-11 | 2010-05-11 | Квелкомм Инкорпорейтед | Изменение масштаба времени кадров в вокодере с помощью изменения остатка |
BRPI0607646B1 (pt) * | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
KR101040160B1 (ko) | 2006-08-15 | 2011-06-09 | 브로드콤 코포레이션 | 패킷 손실 후의 제한되고 제어된 디코딩 |
CN101375330B (zh) * | 2006-08-15 | 2012-02-08 | 美国博通公司 | 丢包后解码音频信号的时间扭曲的方法 |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
EP2015293A1 (en) | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
CN103000178B (zh) | 2008-07-11 | 2015-04-08 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
FI3573056T3 (fi) * | 2008-07-11 | 2022-11-30 | Audiokooderi ja audiodekooderi | |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
-
2011
- 2011-03-09 KR KR1020127026462A patent/KR101445296B1/ko active IP Right Grant
- 2011-03-09 TW TW100107905A patent/TWI441170B/zh active
- 2011-03-09 BR BR112012022744-0A patent/BR112012022744B1/pt active IP Right Grant
- 2011-03-09 WO PCT/EP2011/053538 patent/WO2011110591A1/en active Application Filing
- 2011-03-09 CA CA2792500A patent/CA2792500C/en active Active
- 2011-03-09 MX MX2012010469A patent/MX2012010469A/es active IP Right Grant
- 2011-03-09 AU AU2011226143A patent/AU2011226143B9/en active Active
- 2011-03-09 WO PCT/EP2011/053541 patent/WO2011110594A1/en active Application Filing
- 2011-03-09 BR BR112012022741-6A patent/BR112012022741B1/pt active IP Right Grant
- 2011-03-09 ES ES11707665T patent/ES2458354T3/es active Active
- 2011-03-09 EP EP20110707415 patent/EP2539893B1/en active Active
- 2011-03-09 PL PL11707415T patent/PL2539893T3/pl unknown
- 2011-03-09 JP JP2012556506A patent/JP5625076B2/ja active Active
- 2011-03-09 JP JP2012556505A patent/JP5456914B2/ja active Active
- 2011-03-09 ES ES11707415T patent/ES2461183T3/es active Active
- 2011-03-09 RU RU2012143340/08A patent/RU2586848C2/ru active
- 2011-03-09 CN CN201180021269.2A patent/CN102884572B/zh active Active
- 2011-03-09 MX MX2012010439A patent/MX2012010439A/es active IP Right Grant
- 2011-03-09 CN CN201180023298.2A patent/CN102884573B/zh active Active
- 2011-03-09 TW TW100107904A patent/TWI455113B/zh active
- 2011-03-09 RU RU2012143323A patent/RU2607264C2/ru not_active Application Discontinuation
- 2011-03-09 PL PL11707665T patent/PL2532001T3/pl unknown
- 2011-03-09 KR KR1020127026461A patent/KR101445294B1/ko active IP Right Grant
- 2011-03-09 CA CA2792504A patent/CA2792504C/en active Active
- 2011-03-09 AU AU2011226140A patent/AU2011226140B2/en active Active
- 2011-03-09 EP EP20110707665 patent/EP2532001B1/en active Active
- 2011-03-10 AR ARP110100746 patent/AR080396A1/es active IP Right Grant
- 2011-03-10 AR ARP110100748 patent/AR084465A1/es active IP Right Grant
-
2012
- 2012-09-06 US US13/604,869 patent/US9129597B2/en active Active
- 2012-09-10 US US13/608,980 patent/US9524726B2/en active Active
-
2013
- 2013-06-08 HK HK13106813.7A patent/HK1179743A1/zh unknown
- 2013-06-26 HK HK13107466.5A patent/HK1181540A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100607A1 (en) * | 2005-11-03 | 2007-05-03 | Lars Villemoes | Time warped modified transform coding of audio signals |
Non-Patent Citations (1)
Title |
---|
Robert Dunn et al., "Sinewave Analysis/Synthesis Based on the Fan-Chirp Tranform", Applications of Signal Processing to Audio and Acoustics, 2007 IEEE Workshop on, IEEE, P1. 1 October 2007 (2007-10-01), pp. 247-250, ISBN: 978-1-4244-1618-9 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI455113B (zh) | 音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式 | |
JP7218329B2 (ja) | オーディオ信号のスペクトルのスペクトル係数のコード化 | |
EP2257944B1 (en) | Time warp contour calculator, audio signal encoder, encoded audio signal representation, methods and computer program | |
JP6113278B2 (ja) | 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 |