TWI459375B - 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式 - Google Patents
音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式 Download PDFInfo
- Publication number
- TWI459375B TWI459375B TW099102406A TW99102406A TWI459375B TW I459375 B TWI459375 B TW I459375B TW 099102406 A TW099102406 A TW 099102406A TW 99102406 A TW99102406 A TW 99102406A TW I459375 B TWI459375 B TW I459375B
- Authority
- TW
- Taiwan
- Prior art keywords
- window
- information
- length
- audio
- slope
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 66
- 230000005236 sound signal Effects 0.000 title claims description 36
- 238000004590 computer program Methods 0.000 title claims description 14
- 230000007704 transition Effects 0.000 claims description 96
- 238000006243 chemical reaction Methods 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 description 38
- 238000013507 mapping Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
依據本發明的實施例係有關於一種基於一輸入音訊資訊來提供一經編碼音訊資訊的音訊編碼器,及有關於一種基於一經編碼音訊資訊提供一經解碼音訊資訊的音訊解碼器。依據本發明進一步的實施例係有關於一種經編碼的音訊資訊。依據本發明更進一步的實施例係有關於一種基於一經編碼音訊資訊提供一經解碼音訊資訊的方法,且有關於一種用於基於一輸入音訊資訊提供一編碼音訊資訊的方法。進一步的實施例係有關於用於執行發明的方法的電腦程式。
本發明的一實施例係有關於一聯合語音/音頻編碼(USAC)位元流語法上的一建議更新。
在下文中,本發明的某些背景將被解釋以幫助理解本發明及其優勢。在過去的十年中,已在建立數位貯存及散佈音訊內容的可能性上投入巨大的努力。此方式的一個重要成就是國際標準ISO/IEC 14496-3的定義。此標準的第3部份係有關於音訊內容的編碼及解碼,而第3部份的第4子部份係有關於一般音訊編碼。ISO/IEC 14496第3部份、第4子部份定義一般音訊內容的編碼及解碼的一概念。另外,進一步的改進被提出以改進品質及/或減少所需位元率。
然而,依據該標準之描述的概念,一時域音訊信號被轉換成一時頻表示。該從時域到時頻域的轉換典型地使用轉換塊被執行,該等轉換塊也稱為時域樣本的「訊框」。已發現使用被移位例如一半訊框的重疊訊框是有利的,因為重疊允許有效地避免(或至少減少)人為因素。另外,已發現應執行一視窗化以避免源自時間有限訊框過程的人為因素。並且,視窗化允許隨後時間移位的除重疊外的訊框的一疊加法過程的最佳化。
然而,已經發現使用均一長度的視窗有效地表現邊緣,即音訊內容中的急劇轉換或所謂的暫態是有問題的,因為一過渡的能量將展開在一視窗的整個期間,這導致能聽到人為因素。因此,提議在不同長度的視窗之間切換,使得一音訊內容的近似穩定的部份使用長視窗被編碼,且使得音訊內容的過渡部份(例如包含一暫態的部份)使用較短視窗被編碼。
然而,在一允許在不同的視窗之間進行選擇以供將一音訊內容從時域轉換成時頻域的系統中,當然需要發信至一視窗應被用於解碼一具有特定訊框之一經編碼音訊內容的解碼器。
在習知系統中,例如在依據國際標準ISO/IEC 14496-3,第3部份、第4子部份的一音訊解碼器中,一指示用於目前訊框中的視窗序列,稱為「window_sequence」的資料元素以兩個位元被寫入一所謂的「ics_info」位元流元素中的位元流中。計入先前訊框的視窗序列,八個不同視窗序列被發信。
鑑於以上討論,可理解表示一音訊資訊的經編碼位元流的一位元負載因發信使用視窗類型的需求而被建立。
鑑於此情況,對於創建一允許更有效位元率發信一使用於音訊內容的一時域表示與該音訊內容的一時頻域表示之間轉換的視窗類型的概念存在一需求。
此問題透過一種依據申請專利範圍第1項的音訊編碼器、一種依據申請專利範圍第9項的音訊解碼器,一種申請專利範圍第12項的經編碼音訊資訊、一種依據申請專利範圍第14項提供一經解碼音訊資訊的方法、一種依據申請專利範圍第15項提供一經編碼音訊資訊的方法,及一種申請專利範圍第16項的電腦程式而被解決。
一依據本發明的實施例建立一種可供基於一經編碼音訊資訊提供一經解碼音訊資訊的音訊解碼器。該音訊解碼器包含一基於視窗的信號轉換器,其被組態成將一由經編碼音訊資訊描述的時頻表示映射至音訊內容的一時域表示。該基於視窗的信號轉換器被組態成基於一視窗資訊,從包含不同過渡斜率的視窗及不同轉換長度的視窗的複數個視窗中選擇一視窗。該音訊解碼器包含一視窗選擇器,其被組態成估計一可變碼字長度視窗資訊,以便選擇一處理與音訊資訊的一特定訊框相關聯的時頻表示的一特定部份(例如,訊框)的視窗。
本發明之此一實施例所根據的研究結果是儲存或發送一指示哪一類型的視窗應被用於將一音訊內容的一時頻域表示轉換成一時域表示的資訊所要求的位元率可藉由使用一可變碼字長度視窗資訊被降低。已發現一可變碼字長度視窗資訊是非常適合的,因為選擇適當視窗需要的資訊非常適合此一可變碼字長度表示。
例如,藉由使用一可變碼字長度視窗資訊,因為一短轉換長度將典型地不被用於具有一或兩個長過渡斜率的視窗,一過渡斜率的選擇與一轉換長度的選擇之間的相依性可被利用。因此,冗餘資訊的傳送可使用一可變碼字長度資訊來避免,藉以改進經編碼音訊資訊的位元率效率。
再如,應注意在相鄰訊框的視窗形狀之間典型地存在一關聯,在另一相鄰視窗(相鄰於目前考慮的視窗)的視窗類型限制目前訊框的視窗類型選擇的情況下其也可被利用於選擇性地減少視窗資訊的一碼字長度。
綜上所述,一可變碼字長度視窗資訊的使用允許在不顯著增加音訊解碼器的複雜性且不改變音訊解碼器的一輸出波形之下(當與一恒定碼字長度視窗資訊相比較時)節省位元率。並且,經編碼音訊資訊的語法甚至可在一些情況中被簡化,將進一步詳細討論。
在一較佳實施例中,該音訊解碼器包含一位元流解析器,被組態以解析一表示經編碼音訊資訊的位元流,且從該位元流擷取一個1-位元視窗斜率長度資訊,且依賴該1-位元斜率長度資訊的值從該位元流選擇性地擷取一個1-位元轉換長度資訊。在此情況中,視窗選擇器較佳地被組態成依賴該視窗斜率長度資訊,選擇性地使用或忽略該轉換長度資訊,以選擇一用於處理該時頻表示的特定部份的視窗。
藉由使用此概念,視窗斜率長度資訊與轉換長度資訊之間的一分離可被獲得,在一些情況中此有助於簡化映射。並且,視窗資訊被分裂成一強制視窗斜率長度位元及一轉換長度位元,該分裂的存在取決於視窗斜率長度位元的狀態,允許一極有效的位元率降低,這可在保持位元流之語法足夠簡單的同時被獲得。因此,位元流解析器的複雜度維持足夠地低。
在一較佳實施例中,該視窗選擇器被組態成依賴被選擇用於處理時頻資訊的一先前部份(例如,一先前音訊訊框)的一視窗類型選擇一用於處理該時頻資訊(例如,一目前音訊訊框)的一目前部份的視窗類型,使得用於處理時頻資訊之目前部份的視窗之一左側視窗斜率長度匹配於被選擇用於處理時頻資訊之先前部份的視窗之右側視窗斜率長度。藉由利用此資訊,選擇一處理時頻資訊的目前部份的視窗類型所需要的位元率特別小,因為用於選擇一視窗類型的資訊以特別低的複雜性被編碼。特別是不需要「浪費」一位元在編碼與時頻資訊之目前部份相關聯之視窗的一左側視窗斜率長度上。因此,藉由使用關於被用以處理時頻資訊的一先前部份的一右側視窗斜率長度的資訊,兩位元(例如,強制視窗斜率長度位元及可選擇轉換長度位元)可被用於從多於四個的複數可選擇視窗中選擇一適當視窗。因此,不必要的冗餘被避免,且經編碼位元流的位元率效率被改進。
在一較佳實施例中,若用於處理時頻資訊的先前部份的視窗的一右側視窗斜率長度採取一「長」值(當與指示一相對較短的視窗斜率長度的一「短」值相比時,指示一相對較長的視窗斜率長度),且若時頻資訊的一先前部份、時頻資訊的一目前部份及時頻資訊的一隨後部份全部被編碼在一頻域核心模式中,視窗選擇器被組態成依賴一個1-位元視窗斜率長度資訊,在一第一類型的視窗與一第二類型的視窗之間進行選擇。
若用於處理時頻資訊的先前部份的一右側視窗斜率長度採取一「短」值(如上所述),且若時頻資訊的一先前部份、時頻資訊的一目前部份及時頻資訊的一隨後部份全部被編碼在一頻域核心模式中,視窗選擇器較佳地也被組態成響應於1-位元視窗斜率長度資訊的一第一值(例如,一「1」值)選擇一第三類型的視窗。
另外,若該1-位元視窗斜率長度資訊採取一表示一短右側視窗斜率的第二值(例如,一「零」值),且若用於處理時頻資訊的先前部份的視窗之右側視窗斜率長度採取一「短」值(如上所述),且若時頻資訊的先前部份、時頻資訊的目前部份及視頻部份的隨後部份全部被編碼在一頻域核心模式中,視窗選擇器較佳地也被組態成依賴一個1-位元轉換長度資訊在一第四類型的視窗與一視窗序列(其可被認為是一第五類型的視窗)之間進行選擇。
在此情況中,第一類型的視窗包含(相對)長的左側視窗斜率長度、一(相對)長的右側視窗斜率長度及一(相對)長的轉換長度,第二類型的視窗包含一(相對)長的左側視窗斜率長度、一(相對)短的右側視窗斜率長度及一(相對)長的轉換長度,第三類型視窗包含一(相對)短左側視窗斜率長度、一(相對)長偶側視窗斜率長度及一(相對)長轉換長度,且第四類型視窗包含一(相對)短左側視窗斜率長度、一(相對)短右側視窗斜率長度及一(相對)長轉換長度。「視窗序列」(或第五視窗類型)定義一序列或疊加之與該時頻資訊之一單一部份(例如,訊框)相關聯的複數子視窗,各該複數個子視窗具有一(相對)短轉換長度、一(相對)短左側視窗斜率長度及一(相對)短右側視窗斜率長度。藉由使用此一方法,總計五個視窗類型(包括類型「視窗序列」)可僅使用兩個位元被選擇,其中一1-位元資訊(即1-位元視窗斜率長度資訊)足以在左側以及右側發信具有相對長視窗斜率長度的極普遍複數視窗序列。相反地,一2-位元視窗資訊僅在準備一短視窗之序列(「視窗序列」或「第五視窗類型」)中以及在一「視窗序列」訊框的暫時延長(跨及複數個訊框)系列上被需要。
綜上所述,上述從複數個,例如五個不同類型的視窗中選擇一種類型視窗的概念允許所需位元率的一大幅降低。然而,習知必須有三個專屬位元用來從例如五種類型的視窗中選擇一種類型的視窗,依據本發明僅需要一個或兩個位元來執行此一選擇。因此,可實現一相當大的位元節約,藉此減少所需位元率及/或提供改進音訊品質的機會。
在一較佳實施例中,視窗選擇器被組態成僅當一處理時頻資訊的一先前部份(例如,訊框)的視窗類型包含一匹配具有一短視窗序列的一左側視窗斜率長度的一右側視窗斜率長度,且當與時頻資訊的目前部份(例如,目前訊框)相關聯的一個1-位元視窗斜率長度資訊定義一與具有短視窗序列的右側視窗斜率長度匹配的一右側視窗斜率長度時,才選擇性地估計可變碼字長度視窗資訊的一轉換長度位元。
在一較佳實施例中,視窗選擇器進一步被組態成接收一先前核心模式資訊,該核心模式資訊與音訊資訊的一先前部份(例如,訊框)相關聯,且描述供音訊資訊之先前部份(例如,訊框)編碼之用的一核心模式。此情況中,視窗選擇器被組態成依賴先前核心模式資訊、且亦依賴與時頻表示之目前部份相關聯的可變碼字長度視窗資訊以選擇一供處理時頻表示的一目前部份之用的視窗。因此,一先前訊框的核心模式可被利用以選擇一適當視窗用於在先前訊框與目前訊框之間過渡(例如一疊加的形式)。此外,一可變碼字長度視窗資訊的利用極其有利,因其再次可能節約一相當數目的位元。如果例如在一線性預測域中被編碼的音訊訊框之可用(或有效的)視窗類型的數目少,則可獲得尤其為佳的節約,則可獲得一特別好的節約。因此,在兩個不同核心模式之間(例如,一線性預測域核心模式與一頻域核心模式之間)的過渡,在一較長碼字與一較短碼字中通常可能使用一短碼字。
在一較佳實施例中,視窗選擇器被進一步組態成接收一隨後的核心模式資訊,該核心模式資訊與音訊資訊的一隨後部份(或訊框)相關聯,且描述供編碼音訊資訊的隨後訊框的一核心模式。在此情況中,音訊選擇器較佳地是被組態成依賴隨後的核心模式資訊且亦依賴與時頻表示之目前部份相關聯的可變碼字長度視窗資訊選擇一視窗,以供處理時頻表示的一目前部份(例如訊框)。另外,可變碼字長度視窗資訊可與隨後的核心模式資訊一起利用來決定具有一低位元計數需求的視窗類型。
在一較佳實施例中,視窗選擇器被組態成如果隨後的核心模式資訊指示音訊資訊之一隨後的訊框使用一線性預測域核心模式被編碼,則選擇具有一縮短的右側斜率的視窗。以此方式,視窗對頻域核心模式與時域核心模式之間的一過渡的適應可在被不需要額外的發信下建立。
另一依據本發明的實施例根據一輸入音訊資訊建立一用於提供一經編碼音訊資訊的音訊編碼器。該音訊編碼器包含一基於視窗的信號轉換器,其被組態成基於輸入音訊資訊的複數個視窗部份(例如,重疊或非重疊訊框)提供一系列音訊信號參數(例如,輸入音訊資訊的一時頻域表示)。該基於視窗的信號轉換器較佳地被組態成依賴輸入音訊信號特性使一視窗形狀適於獲得輸入音訊資訊的視窗化部份。基於視窗的信號轉換器被組態成在具有一(相對)較長的過渡斜率之視窗與具有一(相對)較短過渡斜率之視窗的使用之間切換,且也在具有兩個或兩個以上不同轉換長度的視窗之一使用間切換。基於視窗的信號轉換器也被組態成依賴被用於轉換輸入音訊資訊的一先前部份(例如,訊框)的一視窗類型以及輸入音訊資訊之一目前部份的一音訊內容來決定被用於轉換輸入音訊資訊的目前部份(例如訊框)的視窗類型。並且,音訊編碼器被組態成編碼一描述一種視窗類型的視窗資訊,該視窗視窗使用一可變長度碼字轉換輸入音訊資訊的一目前部份。此音訊編碼器提供已參照發明之音訊解碼器討論的優勢。特別是有可能藉由避免在有可行性的部分或全部情況中使用一相對長的碼字來減少經編碼音訊資訊的位元率。
依據本發明的另一實施例建立一經編碼的音訊資訊。該經編碼音訊資訊包含一經編碼的時頻表示,其描述一音訊信號的複數個視窗化部份的一音訊內容。不同過渡斜率(例如,過渡斜率長度)及不同轉換長度的視窗與音訊信號的不同視窗化部份相關聯。經編碼的音訊資訊業包含一經編碼的視窗資訊,其編碼用於獲得音訊信號的複數個視窗化部份的經編碼時頻表示的多個類型視窗。經編碼視窗資訊是一可變長度視窗資訊,其使用一第一、較小數目的位元編碼一或一個以上類型的視窗,且使用一第二、較大數目的位元編碼一或一個以上的其他類型視窗。此經編碼音訊資訊帶來上述參照發明的音訊解碼器及發明的音訊編碼器討論的優勢。
依據本發明的另一實施例建立一種基於一經編碼音訊資訊提供一經解碼音訊資訊的方法。該方法包含估計一可變碼字長度視窗資訊,以從包含具有不同過渡斜率(例如,不同的過渡斜率長度)的視窗以及具有不同轉換長度的視窗的複數個視窗中選擇一視窗,以供處理與音訊資訊的一特定訊框相關聯的時頻表示的一特定部份。該方法也包含使用選擇視窗將由經編碼音訊資訊描述之時頻表示的特定部份映射至一時域表示。
依據本發明的另一實施例建立一種用於基於一輸入音訊資訊提供一經編碼音訊資訊的方法。該方法包含基於輸入音訊資訊的複數個視窗化部份提供一序列之音訊信號參數(例如,一時頻域表示)。為了提供該系列的音訊信號參數,在具有一較長過渡斜率的視窗與具有一較短過渡斜率的視窗之一使用間,且也在具有兩個或兩個以上不同轉換長度的視窗之一使用間執行一切換,使視窗形狀適於依賴輸入音訊資訊的特性獲得輸入音訊資訊的視窗化部份。該方法也包含使用一可變長度碼字編碼一視窗資訊,該視窗資訊描述被用於轉換輸入音訊資訊的一目前部份的一視窗類型。
另外,依據本發明之實施例建立用於實施該等方法之電腦程式。
本發明之實施例將隨後參考附圖被描述,在該等附圖中:第1a-b圖繪示依據本發明之一實施例,一音訊編碼器的方塊示意圖;第2a-b圖繪示依據本發明之一實施例,一音訊解碼器的一方塊示意圖;第3a-b圖繪示可依據發明的概念被使用的不同視窗類型的概要表示;第4圖繪示不同視窗類型的視窗之間的可允許過渡的一圖示表示,其可被應用於依據本發明之實施例的設計;第5圖繪示一系列不同視窗類型的圖示表示,其可由一發明的編碼器產生或可由一發明的音訊解碼器處理;第6a圖繪示依據本發明之一實施例,表示一建議的位元流語法表;第6b圖繪示從目前訊框的一視窗類型到一「window_length」資訊及一「transform_length」資訊的映射之圖示表示;第6c圖繪示一基於一先前核心資訊、先前訊框的一「window_length」資訊、目前訊框的一「window_length」資訊及目前訊框的一「transform_length」資訊來獲得目前訊框的視窗類型的一映射的圖示表示;第7a圖繪示表示一「window_length」資訊的語法的表格;第7b圖繪示表示一「transform_length」資訊的語法的表格;第7c圖繪示表示一新位元流語法及過渡的表格;第8圖繪示提供「window_length」資訊以及「transform_length」資訊所有組合之概觀的表格;第9圖繪示表示一可使用本發明之一實施例獲得的位元節約的表格;第10a圖繪示一所謂的USAC原始資料塊的一語法表示;第10b圖繪示一所謂的單通道元素的語法表示;第10c圖繪示一所謂的雙通道元素的語法表示;第10d圖繪示一所謂的ICS資訊的語法表示;第10e圖繪示一所謂的頻域通道串流的語法表示;第11圖繪示一種基於一輸入音訊資訊提供一經編碼音訊資訊之方法的流程圖;及第12圖繪示一種用於基於一經編碼音訊資訊提供一經解碼音訊資訊之方法的流程圖。
音訊編碼器概觀
在下文中,一音訊編碼器將被描述,發明的概念可應用於其中。然而,應注意參考第1圖描述的音訊編碼器應被看做僅是本發明可被應用的一音訊編碼器之範例。然而,即使一相對簡單的音訊編碼器參考第1圖被討論,應注意本發明也可被應用於更多複雜音訊編碼器中,例如能夠在不同編碼核心模式之間(例如在頻域編碼與線性預測域編碼之間)切換的音訊編碼器。然而,為了簡便起見,這似乎有助於理解一簡單頻域音訊編碼器的基本觀念。
第1圖所示音訊編碼器非常相似於國際標準ISO/IEC14496-3:2005(E),第3部份,第4子部份及同樣在本文參考的文獻中所描述的音訊編碼器。因此應參考該標準、本文描述的文獻及與MPEG音訊編碼相關的大量文獻。
第1圖所示的音訊編碼器100被組態成接收一輸入音訊資訊110,例如一時域音訊信號。音訊編碼器100進一步包含一任選預處理器120,被組態成可選擇地預處理輸入音訊資訊110,例如藉由降低取樣輸入音訊資訊110或藉由控制輸入音訊資訊110的一增益。音訊編碼器100也包含,一基於視窗之信號轉換器130,為一關鍵組件,其被組態成接收輸入音訊資訊110,或其之一預處理版本122,且被組態成將輸入音訊資訊110或其之預處理版本122轉換成頻域(或時頻域),以獲得一系列音訊信號參數,該等參數可能是一時頻域中的頻譜值。因此,基於視窗之信號轉換器130包含一視窗器/轉換器136,其可被組態成將輸入音訊資訊110、122的數塊樣本(例如,「訊框」)轉換成數組頻譜值132。例如,視窗器/轉換器136可被組態成對輸入音訊資訊的每一樣本塊(即,對於每一「訊框」)提供一組頻譜值。然而,輸入音訊資訊110、122的數塊樣本(即,「訊框」)可較佳地被重疊,使得輸入音訊資訊110、122時間上相鄰的數個樣本塊(訊框)共用複數個樣本。例如,兩塊時間上隨後的樣本(訊框)可重疊大約樣本的50%。因此,視窗器/轉換器136可被組態成一所謂的重疊轉換,例如一修改型離散餘弦轉換(MDCT)。然而,當執行修改型離散餘弦轉換時,視窗器/轉換器136可對每一塊的樣本施加一視窗,藉此使中心樣本(時間上被安排成接近一塊樣本的時間中心)強於周邊樣本(時間上被安排成接近一塊樣本的前端及尾端)。視窗化可有助於避免起源於輸入音訊資訊110、122分割成數塊的人為因素。因此,視窗在從時域轉換到時頻域之前或期間的應用允許輸入音訊資訊110、122隨後數塊樣本之間的一平滑過渡。關於視窗化之詳情,再次參考國際標準ISO/IEC 14496,第3部份,第4子部份及本文參考的文獻。在該音訊編碼器的一極簡單版本中,一音訊訊框的一2N數目的樣本(定義為一塊樣本)將被轉換成獨立於信號特性的一組N頻譜係數。然而,已發現音訊資訊110、122的2N樣本的一均一轉換長度獨立於輸入音訊資訊110、122的特性被使用的此一概念導致過渡的一嚴重降級,因為在一過渡情況中,當解碼音訊資訊時,過渡之能量在整個訊框上被傳播。然而,已發現如果一較短轉換長度(例如,2N/8=N/4樣本每轉換)被選擇,可獲得在邊緣編碼上的一改進。然而,也發現一較短轉換長度的選擇典型地增加所需位元率,即使針對一較短轉換長度當與一較長轉換長度相比而言獲得較低的頻譜值。因此,已發現在音訊內容的一過渡附近從一長轉換長度(例如,2N樣本每轉換)切換到一短轉換長度(例如,2N/8=N/4樣本每轉換),以及在該過渡之後切換回長轉換長度(例如,2N樣本每轉換)是值得推薦的。轉換長度的切換與被施用於視窗化輸入音訊資訊110、122之樣本的視窗在轉換之前或期間的改變有關。
關於此一問題,應注意在許多情況中一音訊編碼器能夠使用多於兩個的不同視窗。例如,如果先前訊框(在目前考慮的訊框之前)及後一訊框(在目前考慮的訊框之後)都使用一長轉換長度(例如,2N樣本被編碼),一所謂的「only_long_sequence」可被用於編碼目前音訊訊框。相反,一所謂的「long_start_sequence」可比用於一使用一長轉換長度被轉換的訊框,一使用一長轉換長度被轉換的訊框在其之前,且一使用一短轉換長度被轉換的訊框在其之後。在一使用一短轉換長度被轉換的訊框中,一包含八個短且重疊的(子)視窗的所謂的「eight_short_sequence」視窗序列可被應用。另外,一所謂的「long_stop_sequence」視窗可被應用於轉換一訊框,一使用短轉換長度被轉換的先前訊框在其之前,且一使用一長轉換長度被轉換的訊框在其之後。關於可能的視窗序列之詳情,參考ISO/IEC 14496-3:2005(E)第3部份,第4子部份。並且,參考第3圖、第4圖、第5圖、第6圖,它們將在下文詳細解釋。
然而,應注意在一些實施例中,一或一個以上附加類型的視窗可被使用。例如,如果一短轉換長度被使用的訊框在目前訊框之前,且如果一短轉換長度被使用的訊框在目前訊框之後,則一所謂的「stop_start_sequence」視窗可被應用。
因此,基於視窗之信號轉換器130包含一視窗序列決定性因子138,其被組態成向視窗器/轉換器136提供一視窗類型資訊140,使得視窗器/轉換器136可使用一適當類型的視窗(「視窗序列」)。例如,視窗序列決定性因子130可被組態成直接估計輸入音訊資訊110或預處理的輸入音訊資訊122。然而,可供選擇地,音訊編碼器100可包含一心理聲學模型處理器150,其被組態成接收輸入音訊資訊110或預處理輸入音訊資訊122,且被組態成應用一心理聲學模型以從輸入音訊資訊110、122擷取與輸入音訊資訊110、122之編碼相關的資訊。例如,心理聲學模型處理器150可被組態成識別輸入音訊資訊110、122中的過渡,且提供一視窗長度資訊152,該資訊可發信需要一短轉換長度的訊框,因為在對應的輸入音訊資訊110、122中存在一過渡。
心理聲學模型處理器150也可被組態成判定那些頻譜值需以高解析度(即,良好的量化)被編碼及那些頻譜值可以較低解析度(即粗略的量化)被編碼而不需獲得一音訊內容的一嚴重降級。因此,心理聲學模型處理器150可被組態成估計心理聲學遮蔽效應,藉此識別較低心理聲學相關性的頻譜值(或數頻帶的頻譜值)及較高心理聲學相關性的其他頻譜值(或數頻帶的頻譜值)。因此,心理聲學模型處理器150提供一心理聲學相關性資訊154。
音訊編碼器100進一步包含一任選頻譜處理器160,其被組態成接收音訊信號參數132之序列(例如,輸入音訊資訊110、122的一時頻域表示),且基於其提供一後處理序列的音訊信號參數162。例如,頻譜後處理器160可被組態成執行一時間雜訊整形、一長期預測、一知覺雜訊替代及/或一音訊通道處理。
音訊編碼器100也包含一任選縮放/量化/編碼處理器170,其被組態成縮放音訊信號參數(例如,時頻域值或「頻譜值」)132、162,以執行一量化且編碼經縮放及經量化值。因此,縮放/量化/編碼處理器170可被組態成使用心理聲學模型處理器提供的資訊154,例如來判定要被施加於音訊信號參數(或頻譜值)的縮放及/或量化。因此,縮放及量化可適合使得經縮放、量化及編碼的音訊信號參數(頻譜值)的一所需位元率被獲得。
另外,音訊編碼器100包含一可變長度碼字編碼器180,其被組態成從視窗序列決定性因子138接收視窗類型資訊140,且基於視窗類型資訊提供一描述用於由視窗器/轉換器136執行的視窗化/轉換操作的視窗類型的可變長度碼字182。關於可變長度碼字編碼器180之細節將隨後被描述。
另外,音訊編碼器100可選擇地包含一位元流負載格式器190,其被組態成接收經縮放、量化及編碼的頻譜資訊172(描述音訊信號參數或頻譜值132之序列)及描述用於視窗化/轉換操作的視窗類型的可變長度碼字182。因此位元流負載格式器190提供一位元流192,資訊172及可變長度碼字182被併入其中。位元流192用作一經編碼音訊資訊,且可被儲存在一媒體上及/或從音訊編碼器100被傳送至一音訊解碼器。
綜上所述,音訊編碼器100被組態成基於輸入音訊資訊110提供經編碼音訊資訊192。音訊編碼器100包含基於視窗之信號轉換器130為一重要組件,其被組態成基於輸入音訊資訊110的複數個視窗化部份提供一系列音訊信號參數132(例如一系列頻譜值)。基於視窗之信號轉換器130被組態成使得一用於獲得輸入音訊資訊的視窗化部份的視窗類型依賴音訊資訊之特性被選擇。基於視窗之信號轉換器130被組態成在使用具有一較長過渡斜率的視窗與具有一較短過渡斜率的視窗之間,及在使用具有兩個或兩個以上不同轉換長度的視窗之間切換。例如,基於視窗之信號轉換器130被組態成依據一被用於轉換輸入音訊資訊的一先前部份(例如訊框)的視窗類型,且依賴輸入音訊資訊目前部份的一音訊內容確定被用於轉換輸入音訊資訊之目前部份(例如訊框)的視窗類型。然而,音訊編碼器被組態成例如使用可變長度碼字編碼器180編碼描述一視窗類型的視窗類型資訊140,該視窗類型被用於使用一可變長度碼字轉換輸入音訊資訊的一目前部份(例如訊框)。
轉換視窗類型
在下文中,將詳細描述可由視窗器/轉換器136應用,且可由視窗序列決定性因子138選擇的不同視窗。然而,本文所描述之視窗僅用作範例。之後,視窗類型之高效編碼的發明概念將被討論。
參考第3圖,繪示不同類型轉換視窗的圖示表示,將給出新樣本視窗的一概觀。然而,另外參考ISO/IEC 14496-3,第3部份,第4子部份,其中應用轉換視窗的概念被更詳細地描述。
第3圖繪示一第一視窗類型310的圖示,其包含一(相對)長的左側視窗斜率310a(1024個樣本)及一長右側視窗斜率310b(1024個樣本)。一2048個樣本及1024個頻譜係數的總和與第一視窗類型310相關聯,使得第一視窗類型310包含一所謂的「長轉換長度」。
一第二視窗類型312被設計成「long_start_sequence」或「long_start_window」。第二視窗類型包含一(相對)長左側視窗斜率312a(1024個樣本)及一(相對)短右側視窗斜率312b(128個樣本)。一2048個樣本即1024個頻譜係數的總和與第二視窗類相關聯,使得第二視窗類型312包含一長轉換長度。
第三視窗類型314被設計成「long_stop_sequence」或「long_stop_window」。第三視窗類型314包含一短左側視窗斜率314a(128個樣本)及一長右側視窗斜率314b(1024個樣本)。一2048個樣本即1024個頻譜係數的總和與第三視窗類型314相關聯,使得第三視窗類型包含一長轉換長度。
第四視窗類型316被設計成一「stop_start_sequence」或「stop_start_window」。第四視窗類型316包含一短左側視窗斜率316a(128個樣本)及一短右側視窗斜率316b(128個樣本)一2048個樣本與1024個頻譜係數的總和與第四視窗類型相關聯,使得第四視窗類型包含一「長轉換長度」。
一第五視窗類型318與第一至第四視窗類型顯著不同。第五視窗類型包含八個「短視窗」或子視窗319a到319h的一重疊,它們被安排成時間上重疊。各個短視窗319a-319h包含一256個樣本的長度。因此,一將256個樣本轉換成128個頻譜值的「短」MDCT轉換與各該短視窗319a-319h相關聯。因此,八組128個頻譜值各與第五視窗類型318相關聯,額一單組1024個頻譜值與各該第一道第四視窗類型310、312、314、316相關聯。因此,可以說第五視窗類型包含一「短」轉換長度。然而,第五視窗類型包含一短左側視窗斜率318a及一短右側視窗斜率318b。
因此,對於第一視窗類型310、第二視窗類型312、第三視窗類型314或第四視窗類型316相關聯的一訊框而言,輸入音訊資訊的2048個樣本為一單一組被共同視窗化及MDCT轉換成時頻域。相反地,對於第五視窗類型318相關聯的一訊框而言,八(至少部份重疊)子組的256個樣本各被個別地(或分離地)MDCT轉換,使得八組MDCT係數(時頻值)被獲得。
再次參考第3圖,應注意第3圖繪示複數個附加視窗。如果目前訊框在一先前訊框之後,該先前訊框在一線性預測域中被編碼,此等附加視窗,即一所謂的「stop_1152_sequence」或「stop_window_1152」330及一所謂的「stop_start_1152_sequence」或「stop_start_window_1152」332可被應用。在此等情況中,轉換的長度適合以允許時域混淆人為因素。
並且,如果目前訊框由一隨後的訊框接隨,則附加視窗362、366、368、382可選擇地被應用,該隨後訊框在線性預測域中被編碼。然而,視窗類型330、332、362、366、368、382應被視為可任選的,且不為實施發明的概念所需。
轉換視窗類型之間的過渡
現在參考第4圖,繪示視窗序列(或複數個類型的轉換視窗)之間允許的過渡的一示意圖,進一步的細節將被解釋。各具有視窗類型310、312、314、316、318之一的兩個隨後轉換視窗不被應用於部份重疊的複數塊音訊樣本,可理解一第一視窗的一右側視窗斜率應與一第二、隨後視窗的一左側視窗斜率匹配,以避免有部份重疊導致的人為因素。因此,如果第一訊框的視窗類型(由兩個隨後訊框中)被特定,則(由兩個隨後訊框中)選擇第二訊框的視窗類型被限制。如第4圖所示,如果第一視窗是一「only_long_sequence」視窗,第一視窗可僅由一「only_long_sequence」視窗或一「long_start_sequence」視窗接隨。相反地,如果「only_long_sequence」視窗被用於轉換第一訊框,則不允許使用一「eight_short_sequence」視窗、一「long_stop_sequence」視窗或一「stop_start_sequence」視窗以供接隨第一訊框的第二訊框之用。類似地,如果一「long_stop_sequence」視窗被用於第一訊框,則第二訊框可使用一「only_long_sequence」視窗或一「stop_start_sequence」視窗,但是第二訊框不可使用一「eight_short_sequence」視窗、一「long_stop_sequence」視窗或一「stop_start_sequence」視窗。
相反地,如果第一訊框(兩個隨後訊框中的)使用一「long_start_sequence」視窗、一「eight_short_sequence」視窗或一「stop_start_sequence」視窗,則第二訊框(兩個隨後訊框中的)不可使用一「only_long_sequence」視窗或一「long_start_sequence」視窗,但是可使用一「eight_short_sequence」視窗、一「long_stop_sequence」視窗或一「stop_start_sequence」視窗。
視窗類型「only_long_sequence」、「long_start_sequence」、「eight_short_sequence」、「long_stop_sequence」及「stop_start_sequence」之間的可允許過渡由第4圖中的一「打鉤」繪示。相反地,在沒有「打鉤」的視窗類型之間的過渡在一些實施例中是不允許的。
另外,應注意如果一頻域核心模式與一線性預測域核心模式之間的過渡是可能的,則附加視窗類型「LPD_sequence」、「stop_1152_sequence」及「stop_start_1152_sequence」可被使用。然而,此一可能性應被視為可任選的,且稍後將討論。
範例視窗序列
在下文中,一視窗序列可被描述,其使用視窗類型310、312、314、316、318。第5圖繪示此一視窗序列的圖示表示。如圖所示,橫坐標150表示時間。在第5圖中重疊大約50%的訊框指定為「訊框1」到「訊框7」。第5圖繪示一第一訊框520,其可例如包含2048個樣本。一第二訊框522相對第一訊框520時間上移位(大約)1024個樣本,使得第二訊框重疊第一訊框520(大約)50%。在第5圖中可看到一第三訊框524、一第四訊框526、一第五訊框528、一第六訊框530及一第七訊框532之時間上的對準。一「only_long_sequence」視窗540(類型310)與第一訊框520相關聯。並且,一「only_long_sequence」視窗542(類型310)與第二訊框522相關聯。一「long_start_sequence」視窗544(類型312)與第三訊框相關聯,一「eight_short_sequence」視窗546(類型318)與第四訊框526相關聯,一「stop_start_sequence」視窗548(類型316)與第五訊框相關聯,一「eight_short_sequence」視窗550(類型318)與第六訊框530相關聯,且一「long_stop_sequence」視窗552(類型314)與第七訊框532相關聯。因此,一單一組的1024個MDCT係數與第一訊框520相關聯,另一單一組的1024個MDCT係數與第二訊框522相關聯,而又一單一組的1024個MDCT係數與第三訊框524相關聯。然而八組128個MDCT係數與第四訊框526相關聯。一單一組的1024個MDCT係數與第五訊框528相關聯。
如果在第四訊框526的一中心部份存在一暫態事件,且如果在第六訊框530的一中心部份存在一暫態事件,則第5圖所示之視窗序列可例如產生一特定位元率效率編碼結果,同時在剩餘時間內(例如,在第一訊框520、第二訊框522、第三訊框524的開始、第五訊框528中間及第七訊框532結束期間)信號近似穩定。
然而,如在下文詳細描述的,本發明建立一用於編碼與音訊訊框相關聯的視窗類型特別有效的概念。考慮到這點,應注意五個視窗類型310、312、314、316、318之一總和被用於第5圖的視窗序列500。因此,「通常」需要使用三個位元以供編碼訊框類型之用。相反地,本發明建立一允許以減少的位元需求編碼視窗類型的概念。
現在參考第6a圖及第7a圖、第7b圖以及第7c圖,發明的編碼視窗類型概念將被解釋。第6a圖繪示表示一視窗類型資訊的一建議語法的表格,包括編碼視窗類型的規則。為了說明之目的,假定由視窗序列決定性因子138提供至可變產能過度碼字編碼器180的視窗類型資訊140描述目前訊框的視窗類型,且可採取「only_long_sequence」、「long_start_sequence」、「eight_short_sequence」、「long_stop_sequence」、「stop_start_sequence」其中之一值,以及可選擇地甚至「stop_1152_sequence」及「stop_start_1152_sequence」其中之一值。然而,依據發明的編碼概念,可變長度碼字編碼器180提供一個1-位元「window_length」資訊,該資訊描述與目前訊框相關聯的視窗一右視窗斜率的長度。如第7a圖所示,1-位元「window_length」資訊的一「0」值可表示1024個樣本的右視窗斜率的一長度,而一「1」值可表示128個樣本的右視窗斜率的一長度。因此,如果視窗類型是「only_long_sequence」(第一視窗類型310)或「long_stop_sequence」(第三視窗類型314),則可變長度碼字編碼器180可提供「window_length」資訊的一「0」值。可選擇地,可變長度碼字編碼器180也可對一視窗類型「stop_1152_sequence」(視窗類型330)提供一為「0」的「window_length」資訊。相反地,可變長度碼字編碼器180可向一「long_start_sequence」(第二視窗類型312)、一「stop_start_sequence」(第四視窗類型316)及一「eight_short_sequence」(第五視窗類型318)提供一「1」值「window_length」資訊。可選擇地,可變長度碼字編碼器180也可向一「stop_start_1152_sequence」(視窗類型332)提供一「1」值「window_length」資訊。另外,可變長度碼字編碼器180可選擇地向一或一個以上的視窗類型362、366、368、382提供一「1」值「window_length」資訊。
然而,可變長度碼字編碼器180被組態成依賴目前訊框的1-位元「window_length」資訊之值選擇性地提供另一個1-位元資訊,即目前訊框之所謂的「transform_length」資訊。如果目前訊框的「window_length」資訊採取「0」值(即對於視窗類型「only_long_sequence」、「long_stop_sequence」及選擇性地對「stop_1152_sequence」而言),則可變長度碼字編碼器180不提供一納入位元流192中的「transform_length」資訊。相反地,如果一目前訊框的「transform_length」資訊採取「1」值(即對於視窗類型「long_start_sequence」、「stop_start_sequence」、「eight_short_sequence」及,可選擇地對「LPD_start_sequence」及「stop_start_1152_sequence」而言),則可變長度碼字編碼器180提供一納入位元流192中的位元「transform_length」資訊。「transform_length」資訊被提供,如果其被提供,使得「transform_length」資訊表示被應用於目前訊框的轉換長度。因此,「transform_length」資訊被提供以對視窗類型「long_start_sequence」、「stop_start_sequence」,及可選擇地,「stop_start_1152_sequence」及「LPD_start_sequence」採取一第一值(例如「0」值),藉此指示被應用於目前訊框的MDCT核心尺寸是1024個樣本(或1152個樣本)。相反地,如果一「eight_short_sequence」視窗類型與目前訊框相關聯,「transform_length」資訊由可變長度碼字編碼器180提供以採取一第二值(例如「1」值),藉此指示與目前訊框相關聯的MDCT核心尺寸是128個樣本(見第7b圖的語法表示)。
總而言之,如果與目前訊框相關聯的視窗之右側視窗斜率相對長(長視窗斜率310b、314b、330b),即對於視窗類型「only_long_sequence」、「long_stop_sequence」及「stop_1152_sequence」而言,可變長度碼字編碼器向位元流192之內含物提供僅包含目前訊框的一位元「window_length」資訊的一個1-位元碼字。相反地,如果與目前訊框相關聯的右側視窗斜率是一短視窗斜率312b、316b、318b、332b,即,對於視窗類型「long_start_sequence」、「eight_short_sequence」、「stop_start_sequence」及,可選擇地對「stop_start_1152_sequence」而言,可變長度碼字編碼器180向位元流192之內含物提供包含1-位元「window_length」資訊及1-位元「transform_length」資訊的一個2-位元碼字。因此,在「only_long_sequence」視窗類型及「long_stop_sequence」視窗類型的情況中(及可選擇地對於一「stop_1152_sequence」視窗類型而言)1位元被節約。
因此,視與目前訊框相關聯的視窗類型而定,僅一或兩個位元需要用於編碼從五個(或更多)可能視窗類型中進行之一選擇。
在這裡應注意,第6a圖繪示一界定在一視窗類型行632中的視窗類型到行620中繪示的「window_length」資訊上的映射,及到「transform_length」資訊的一提供狀態及值(如果需要)的映射,如行624所示。
第6b圖繪示一從目前訊框之視窗類型導出目前訊框的「window_length」資訊及「transform_length」資訊的映射(或「transform_length」從位元流192中被忽略的一指示)的圖示表示法。此映射可由可變長度碼字編碼器180執行,其接收描述目前訊框之視窗類型的視窗類型資訊140,且將其映射至第6b圖表格中的行660所示「window_length」資訊上。特定地,僅當「window_length」資訊採取一預定值(例如「1」)及忽略提供「transform_length」資訊,或抑制位元流192之「transform_length」資訊之內含物,可變長度碼字編碼器180可提供「transform_length」資訊。因此,對於一特定訊框而言,許多包括在位元流192中的視窗類型位元可依據目前訊框的視窗類型如第6b表格的行664所示變化。
並且應注意在一些實施例中,如果目前訊框後接一在線性預測域中被編碼的訊框,則目前訊框的視窗類型可被適應或修改。然而,這典型地不影響視窗類型到「window_length」資訊及選擇地被提供的「transform_length」資訊的映射。
因此,音訊編碼器100被組態成提供一位元流192,使得位元流192遵循下文參考第10a-10e圖討論的語法。
音訊解碼器概觀
在下文中,依據本發明之一實施例的一音訊解碼器將參考第2圖被詳細描述。第2圖繪示依據本發明之一實施例一音訊解碼器的示意圖。第2圖的音訊解碼器200被組態成接收一包含一經編碼音訊資訊的位元流210,且基於該位元流提供一經解碼的音訊資訊212(例如以一時域音訊信號的形式)。音訊解碼器200包含一可任選位元流負載變形項220,其被組態成接收位元流210且從位元流210擷取一經編碼頻譜值資訊222及一可變碼字長度視窗資訊224。位元流負載變形項220可被組態成從位元流210擷取附加資訊,如控制資訊、增益資訊及附加音訊參數資訊。然而,此附加資訊是該技藝中具有通常知識者熟知者且與本發明無關。進一步的細節參考例如國際標準ISO/IEC 14496-3:2005(E),第3部份,第4子部份。
音訊解碼器200包含一任選解碼器/反向量化器/重新縮放器230,其被組態成解碼經編碼的頻譜值資訊222、執行一反向量化,且也執行反向量化頻譜值資訊的一重新縮放,藉此獲得一經解碼頻譜值資訊232。音訊解碼器200進一步包含一可任選頻譜預處理器240,其可被組態成執行一或一個以上頻譜預處理步驟。一些可能的頻譜預處理步驟例如在國際標準ISO/IEC 14496-3:2005(E),第3部份,第4子部份中被解釋。因此,解碼器/反向量化器/重新縮放器及任選頻譜預處理器240之功能導致提供由位元流210表示的經編碼音訊資訊之一時頻表示242(經解碼且可選擇地預處理的)。音訊解碼器200包含一關鍵組件,一基於視窗之信號轉換器250。基於視窗之信號轉換器250被組態成將(經解碼)時頻表示242轉換成一時域音訊信號252。因此,基於視窗之信號轉換器250可被組態成執行一時頻域到時域轉換。例如,基於視窗之信號轉換器250的轉換器/視窗器254可被組態成接收與經編碼音訊資訊之時間上重疊的訊框相關聯的修改型離散餘弦轉換係數(MDCT係數),作為時頻表示242。因此,轉換器/視窗器254可被組態成執行一呈反修正離散餘弦轉換(IMDCT)形式的重疊轉換,以獲得經編碼音訊資訊的視窗化時域部份(訊框),且使用一疊加操作疊加隨後的視窗化時域部份(訊框)。當給予時頻表示242重建時域音訊信號252時,即當與視窗化及疊加操作一起執行反修改型散餘弦轉換時,轉換器/視窗器254可從複數個可用視窗類型中選擇一視窗,以允許一適當重建且同樣避免任何區塊效應。
音訊解碼器也包含一任選時域後處理器260,其被組態成基於時域音訊信號252獲得經解碼音訊資訊212。然而,應注意經解碼音訊資訊212在某些實施例中可與時域音訊信號252相同。另外,音訊解碼器200包含一視窗選擇器270,其被組態成例如從可任選位元流負載變形項220接收可變碼字長度視窗資訊224。視窗選擇器270被組態成向轉換器/視窗器254提供一視窗資訊272(例如一視窗類型資訊或一視窗序列資訊)。應注意取決於實際實施,視窗選擇器270可以是或不是基於視窗之信號轉換器250的一部份。
綜上所述,音訊解碼器200被組態成基於經編碼音訊資訊210提供經解碼音訊資訊212。音訊解碼器200包括該基於視窗之信號轉換器250為一關鍵組件,其被組態成將經編碼音訊資訊210描述的一時頻表示242映射至一時域表示252。基於視窗之信號轉換器250被組態成基於視窗資訊272,從包含不同過渡斜率(例如不同過渡斜率長度)的視窗及不同轉換長度的視窗之視窗中選擇一視窗。音訊解碼器200包含視窗選擇器270作為另一關鍵組件,其被組態成估計可變碼字長度視窗資訊224,以選擇一視窗以供處理與音訊資訊之一特定訊框相關聯的時頻表示242之一特定部份之用。音訊解碼器之其他組件,即位元流負載變形項220、解碼器/反向量化器/重新縮放器230、頻譜預處理器240及時域後處理器260可被視作可選擇的,但是可出現在音訊解碼器200的某些實施中。
在下文中,關於供轉換器/視窗器254執行的轉換/視窗化之用的視窗之選擇的細節將被描述。然而,關於不同視窗選擇之重要性參考上文說明。
音訊解碼器200較佳地能夠使用上述視窗類型「only_long_sequence」、「long_start_sequence」、「eight_short_sequence」、「long_stop_sequence」及「stop_start_sequence」。然而,音訊解碼器可選擇地能夠使用附加視窗類型,例如所謂的「stop_1152_sequence」及所謂的「stop_start_1152_sequence」(兩者都可被用於從一線性預測域經編碼訊框到頻域經編碼訊框的過渡)。另外,音訊解碼器200可進一步被組態成使用附加視窗類型,例如,視窗類型362、366、368、382,它們可適用於從一頻域經編碼訊框到一線性預測域經編碼訊框的過渡。然而,視窗類型330、332、362、366、368、382的使用可被視為可任選的。
然而,發明的音訊解碼器的一重要特徵是提供從可變碼字長度視窗資訊224導出適當視窗類型的一特別有效的解決方法。如上所述,這將在下文中參考第10a-10e圖進一步解釋。
可變碼字長度視窗資訊224典型地包含1或2位元每訊框。較佳地,可變碼字長度視窗資訊包含一攜帶目前訊框的「window_length」資訊的第一位元及一攜帶目前訊框的一「transform_length」資訊的第二位元,其中第二位元(「transform_length」位元)的存在取決於第一位元值(「window_length」位元)。因此,視窗選擇器270被組態成選擇性地估計一或兩個視窗資訊位元(「window_length」及「transform_length」)用於依賴目前訊框相關聯的「window_length」位元值確定與目前訊框相關聯的視窗類型。然而,在沒有「transform_length」位元的情況下,視窗選擇器270可自然地假定「transform_length」位元採取一預設值。
在一較佳實施例中,視窗選擇器270可被組態成估計上文參考第6a圖所述語法,且依據該語法提供視窗資訊272。
首先假定,音訊解碼器200永遠是以一頻域核心模式操作,即假定沒有頻域核心模式與線性預測域核心模式之間的切換,則足以區分上文提到的五個視窗類型(「only_long_sequence」、「long_start_sequence」、「long_stop_sequence」、「stop_start_sequence」及「eight_short_sequence」)。在此情況中,先前訊框的「window_length」資訊、目前訊框的「window_length」資訊及目前訊框的「transform_length」資訊(如果可用)可足以決定視窗類型。
例如,假定僅在頻域核心模式中操作(至少在一序列的三個隨後訊框上),可從先前訊框的「window_length」資訊指示一長過渡斜率(「0」值)及目前訊框的「window_length」資訊指示一長過渡斜率(「0」值)的事實推斷視窗類型「only_long_sequence」與目前訊框相關聯,而不需估計「transform_length」資訊,在此情況中「transform_length」資訊不由編碼器發送。
再次假定僅在頻域核心模式中操作,可從先前訊框的「window_length」資訊指示一長(右側)過渡斜率,及目前訊框的「window_length」資訊指示一短(右側)過渡斜率(「1」值)的事實推斷出視窗類型「long_start_sequence」與目前訊框相關聯,即使未估計一目前訊框的「transform_length」資訊(在此情況中「transform_length」資訊得或不得由編碼器產生及/或發送)。
再次假定僅在頻域核心模式中操作,可從先前訊框的「window_length」資訊指示一短(右側)過渡斜率(「1」值)的存在及目前訊框的「window_length」資訊指示一長(右側)過渡斜率(「0」值)的事實推斷出視窗類型「long_stop_sequence」與目前訊框相關聯,甚至不需估計目前訊框的「transform_length」資訊(其典型地至少不由對應音訊編碼器提供)。
然而,如果先前訊框的「window_length」資訊指示一短(右側)過渡斜率的存在且目前訊框的「window_length」資訊指示也指示一短過渡斜率(「1」值)的存在,可能有必要估計目前訊框的「transform_length」資訊。在此情況中,如果目前訊框的「transform_length」資訊採取與一第一值(例如零),則視窗類型「stop_start_sequence」與目前訊框相關聯。否則,即,如果目前訊框的「transform_length」資訊採取一第二值(例如一),可推斷出視窗類型「eight_short_sequence」與目前訊框相關聯。
綜上所述,視窗選擇器270被組態成估計先前訊框的「window_length」資訊及目前訊框的「window_length」資訊,以決定與目前訊框相關聯的視窗類型。另外,視窗選擇器270依賴目前訊框的「window_length」資訊之值(且也可能依賴先前訊框「window_length」資訊,或一核心模式資訊),計及目前訊框的「transform_length」資訊,被選擇性地組態成決定與目前訊框相關聯的視窗類型。因此,視窗選擇器270被組態成估計一可變碼字長度視窗資訊,以確定與目前訊框相關聯的視窗類型。
第6c圖繪示先前訊框的「window_length」資訊、目前訊框的一「window_length」資訊及目前訊框的一「transform_length」資訊映射至一目前訊框之視窗類型的的表格。目前訊框的「window_length」資訊及目前訊框的「transform_length」資訊可由可變碼字長度視窗資訊224表示。目前訊框的視窗類型可由視窗資訊272表示。由第6c圖之表格描述的映射可由視窗選擇器270執行。
如圖所示,該映射可取決於先前核心模式。如果先前核心模式是一「頻域核心模式」(縮寫為「FD」),則該映射可採用如上所述之形式。然而,如果先前核心模式是一「線性預測域核心模式」(縮寫為「LPD」),則該映射可被改變,如第6c圖之表格最後兩列所示。
另外,如果隨後的核心模式(即與隨後訊框相關聯的核心模式)不是一頻域核心模式,而是一線性預測域核心模式,則該映射可被改變。
音訊解碼器200可選擇地包含一位元流解析器,其被組態成解析表示進編碼音訊資訊的位元流210,及從位元流擷取一個1-位元視窗斜率長度資訊(在本文也稱為「window_length」資訊),以及依賴該1-位元視窗斜率長度資訊之一值選擇性地擷取一個1-位元轉換長度資訊(在本文也稱為「transform_length」資訊)。在此情況中,視窗選擇器270被組態成依賴目前訊框的視窗斜率長度資訊選擇性地使用或忽略轉換長度資訊,以選擇一用於處理時頻表示242的一特定部份(例如訊框)的視窗類型。該位元流解析器可,例如是位元流負載變形項220的一部份,且使音訊解碼器200如上所述以及參考第10a-10e圖所述處理可變碼字長度視窗資訊。
在頻域核心模式與時域核心模式之間切換
在一些實施例中,音訊編碼器100及音訊解碼器200可被組態成在一頻域核心模式與一線性預測域核心模式之間切換。如上所述,假定頻域核心模式是基本核心模式,即以上說明所持之見。然而,如果音訊編碼器能夠在頻域核心模式與線性預測域核心模式之間切換,則可能在頻域核心模式中編碼的訊框與線性預測域核心模式中編碼的訊框之間仍存在一交叉衰落。因此,適當視窗必須被選擇以確保在不同核心模式中被編碼的訊框之間的一適當交叉衰落。例如,在一些實施例中,可能存在兩個視窗類型,即第2B圖中所示的視窗類型330及332,它們適於從一線性預測域核心模式到一頻域核心模式的過渡。例如,視窗類型330可允許一線性預測域編碼訊框與一頻域編碼訊框之間具有一長左側過渡斜率的一過渡,例如,使用一視窗類型「only_long_sequence」或一視窗類型「long_start_sequence」從線性預測域編碼訊框到一頻域編碼訊框。類似地,視窗類型332可允許從一線性預測域編碼訊框到一頻域編碼訊框具有一短左側過渡斜率的過的(例如從一線性預測域編碼訊框到一具有關聯視窗類型「eight_short_sequence」或「long_stop_sequence」的訊框的過渡)。因此,如果發現先前訊框(在目前訊框之前)在線性預測域中被編碼,目前訊框在頻域中被編碼,且目前訊框的「window_length」資訊表示目前訊框的一長右側過渡斜率(例如「0」值),則視窗選擇器270可被組態成選擇視窗類型330。相反地,如果發現先前訊框在線性預測域被編碼,目前訊框在頻域中被編碼,而目前訊框的「window_length」資訊指示一長右側過渡斜率與目前訊框相關聯(例如「1」值),則視窗選擇器270被組態成選擇目前訊框的視窗類型332。
類似地,視窗選擇器270可被組態成反應隨後訊框(接隨目前訊框)在線性預測域中被編碼,而目前訊框在頻域中被編碼的事實。在此情況中,視窗選擇器270可選擇適於後接一線性預測域編碼訊框的視窗類型362、366、368、384中的一個,而非適於後接一頻域編碼訊框的視窗類型312、316、118、332其中之一。然而,除了由視窗類型362代替視窗類型312,由視窗類型368代替視窗類型318,由視窗類型366代替視窗類型360及由視窗類型382代替視窗類型332,視窗類型的選擇當與它們僅是頻域編碼訊框的情況相較可以未改變。
因此,使用一可變碼字長度視窗資訊的發明機制,即使在一頻域編碼與一線性預測編碼之間發生過渡的情況中亦可被應用,而不顯著損及編碼效率。
位元流語法細節
在下文中,關於位元流192、210之位元流語法之細節將參考第10a-10e圖被討論。第10a圖繪示一所謂的聯合語音/音頻編碼(「USAC」)列資料塊「USAC_raw_data_block」的一語法表示。如圖所示,USAC原始資料塊可包含一所謂的單通道元素(「single_channel_element()」)及/或一通道對元素(「channel_pair_element()」)。然而,USAC原始資料塊可天然包含多於一個單通道元素及/或多於一個通道對元素。
現在參考第10b圖,其繪示一單通道元素的一語法表示,更多的細節將被描述。如第10b圖所示,一單通道元素可包含一核心模式資訊,例如以一「core_mode」位元形式。該核心模式資訊可指示目前訊框在一線性預測域核心模式還是在一頻域核心模式中被編碼。在目前訊框在線性預測域核心模式中被編碼的情況中,單通道元素可包含一線性預測域通道串流(「LPD_channel_stream()」)。在目前訊框在頻域中被編碼的情況中,單通道元素可包含一頻域通道串流(「FD_channel_stream()」)。
現在參考第10c圖,其繪示一通道對元素的一語法表示,附加細節將被描述。一通道對元素可包含一第一核心模式資訊,例如以一「core_model」位元形式,描述第一通道的一核心模式。另外,通道對元素可包含一以一「core_model」位元形式的第二核心模式資訊,描述第二通道的一核心模式。因此,不同或相同的核心模式可被選擇用於由一通道對元素描述的兩個通道。可任由選擇地,該通道對元素可包含一公用ICS資訊(「ICS_info()」)用於該兩個通道。如果由通道對元素描述的兩個通道之組態非常相似,則此公用ICS資訊是有利的。自然,一公用ICS資訊僅在兩個通道在同一核心模式中被編碼時被較佳地使用。
另外,該通道對元素包含依據針對第一通道定義(透過核心模式資訊「core_mode0」)的核心模式與第一通道相關聯的一線性預測域通道串流(「LPD_channel_stream()」)或一頻域通道串流(「FD_channel_stream()」)。
並且,該通道對元素包含依據用於編碼第二通道的核心模式的第二通道(可能由核心模式資訊「core_model」發信)之一線性預測域通道串流(「lpd_channel_stream()」)或一頻域通道串流(「fd_channel_stream()」)。
現在參考第10d圖,其繪示ICS資訊的一表示的語法,附加細節將被描述。應注意ICS資訊可包括在通道對元素中,或在個別頻域通道串流中(如參考第10e圖所述)。
ICS資訊包含一個1-位元(或一位元)「window_length」資訊,描述與目前訊框相關聯之視窗的一右側過渡斜率的長度,例如與第7a圖所給的定義一致。若且惟若「window_length」資訊取一預定值(例如「1」)時,ICS資訊包含一附加1-位元(或一位元)「transform_length」資訊。該「transform_length」資訊描述一MDCT核心,例如,與第7b圖中所給的定義一致。如果「window_length」資訊採取一與預定值(例如「0」值)不同的值,則「transform_length」資訊不被包括在(或從其忽略)ICS資訊中(或在對應位元流中)。然而,在此情況中,一音訊解碼器的一位元流解析器可將一解碼器可變「transform_length」的已復原值設定為一預設值(例如「0」值)。
另外,ICS資訊可包含一所謂的「window_shape」資訊,其可以是一個描述一視窗過渡形狀的1-位元(或一位元)資訊。例如,「window_shape」資訊可描述一是否一視窗過渡具有一正弦/餘弦形狀抑或一凱斯-貝塞爾-衍生形狀。關於「window_shape」資訊的意義參考例如國際標準ISO/IEC 14496-3:2005(E),第3部份、第4子部份。然而,應注意「window_shape」資訊使基本視窗類型未受影響,且使一般特性(長過渡斜率或短過渡斜率;長轉換長度或短轉換長度)不受「window_shape」影響。
因此,在依據本發明的實施例中,「window_shape」,即過渡之形狀分別由視窗類型,即過渡斜率(長或短)的一般長度及轉換長度(長或短)決定。
另外,ICS資訊可包含一視窗類型相依比例因子資訊。例如,如果「window_length」資訊及「transform_length」資訊表示目前視窗類型是「eight_short_sequence」,則ICS資訊可包含描述一最大比例因子頻帶的一「max_sfb」資訊及描述比例因子頻帶之分組的一「scale_factor_grouping」資訊。關於此資訊之細節在例如國際標準ISO/IEC 14496-3:2005(E),第3部份,第4子部份中被描述。可供選擇地,即,如果「window_length」資訊及「transform_length」資訊表示目前視窗類型不是「eight_short_sequence」的視窗類型,則ICS資訊可僅包含一「max_sfb」資訊(而沒有「scale_factor_grouping」資訊)。
在下文中,某些進一步的細節將參考第10e圖被描述,其繪示一頻域通道串流(「FD_channel_stream()」)的一語法表示。頻域通道串流包含一描述與頻譜值相關聯的一全域增益的「global_gain」資訊。另外,頻域通道串流包含一ICS資訊(「ICS_info()」),除非此一資訊已包括在一包含目前頻域通道串流的通道對元素中。關於ICS資訊之細節將參考第10d圖被描述。
另外,頻域通道串流包含比例因子資料(「scale_factor_data()」),其描述應用於經解碼頻譜值資訊或一時頻表示之值的比例。另外,頻域通道串流描述經編碼的頻譜資料,其可例如是算術上經編碼的頻譜資料(「ac_spectral_data()」)。然而,頻譜資料的一不同編碼可被使用。關於比例因子資料集經編碼頻譜資料仍參考國際標準ISO/IEC 14496-3:2005(E),第3部份,第4子部份。然而,比例因子資料及頻譜資料的不同編碼如果需要可被自然應用。
結論及性能評估
在下文中,將作出一些結論並給出發明的概念的一性能評估。本發明之實施例建立一減少所需位元率之概念,其可例如,與國際標準ISO/IEC 14496-3:2005(E),第3部份,第4子部份中定義的音訊編碼方案一起被應用。然而,本文所述之概念也可與所謂的「聯合語音/音頻編碼」方法(USAC)一起使用。基於現存位元流定義及解碼器架構,本發明建立一位元流語法修改,其簡化視窗序列發現之語法,節約位元率而不增加複雜性,且不改變解碼器輸出波形。
在下文中,本發明下的背景及觀念將簡要討論並總結。在依據ISO/IEC 14496-3:2005(E)第3部份,第4子部份的目前音訊編碼中,及在USAC工作草案中,一具有固定長度兩位元的碼字被派往發信視窗序列。另外,先前訊框的視窗序列資訊有時需要決定正確序列。
然而,已發現藉由將此一資訊計入考慮並藉由使碼字長度可變化(一或兩個位元),位元率可被降低。一新碼字具有一最大兩位元的長度(「window_length」且在一些情況中為「transform_length」)。因此,位元率不會增加(當較之於習知方法時)。
新碼字(「window_length」且在一些情況中為「transform_length」)由一個表示右視窗斜率之長度的位元(「window_length」)及一個表示轉換長度的位元(「transform_length」)組成。在許多情況中,轉換長度可明確地由先前訊框之資訊,即視窗序列及核心模式導出。因此不需要重新發送此資訊。因此,位元(「transform_length」)在此等情況中被忽略,從而導致位元率降低。
在下文中,關於依據本發明的一新位元率語法的提議之細節將被討論。所提出的新位元流語法允許一較簡單實施及視窗序列的發信,因為其僅傳遞實際上決定目前訊框之視窗類型所需要的資訊,即一右視窗斜率及一轉換長度。目前訊框的左視窗斜率由先前訊框的右視窗斜率導出。
該提議(或提出的新位元流)明確地在視窗斜率之長度上及轉換長度上分離資訊。可變長度碼字是兩者的一結合,依據第7a圖及第7d圖,其中第一位元「window_length」決定(目前訊框的)右視窗斜率之長度,而第二「transform_length」決定MDCT(對於目前訊框而言)之長度。在「window_length」=0,即一長視窗斜率被選擇時,「transform_length」的傳輸可以被忽略(或確實被忽略),因為1024個樣本(或在一些情況中為1152個樣本)的一MDCT核心尺寸是強制的。
第7c圖提供「window_length」及「transform_length」之所有組合的一概觀。如圖所示,兩個1-位元資訊項「window_length」及「transform_length」僅有三個有意義的組合,使得如果「window_length」資訊採取零值而對所需資訊之傳輸無有害影響時,「transform_length」之傳輸可被忽略。
在下文中,「window_length」資訊及「transform_length」資訊到一「window_sequence」資訊(其描述被用於目前訊框的一視窗類型)的映射將被簡要概括。第6a圖中表格顯示所設想的USAC標準值工作草案的目前狀態的位元流元素「window_sequence」如何從新提出的位元流元素中導出。這說明所提出的改變就資訊內容而言是「透明的」。
換句話說,基於利用一可變碼字長度視窗資訊之供發信視窗類型的發明位元率減少語法能夠攜帶「完整」資訊內容,該完整資訊內容習知使用一較高位元率被發送。並且,發明的概念可被應用於習知音訊編碼器及解碼器,例如依據ISO/IEC 14496-3:2005(E),第3部份,第4子部份或依據沒有任何主要修改的現行USAC工作草案的音訊編碼器或音訊解碼器。
在下文中,描述一可達成位元節約的評估。然而,應注意在一些情況中位元節約可稍小於所指出的,且在其他情況中位元節約可能甚至顯著大於所述位元節約。第9圖所示的「位元節約評估」將使用新位元流語法的位元流與習知位元流(習知位元流被提交為一提案)相比較,顯示一無損轉碼的位元節約評估。可清楚看出「transform_length」位元之傳輸可依據本發明,以12kbps單聲道的全部頻域訊框的95.67%上至64kbps全部頻域訊框的95.15%被忽略。
如第9圖所示,平均每秒可節約在2與24位元之間,而不危害音訊內容之品質。鑑於位元率是一音訊內容之儲存及傳輸的一極關鍵資源,此改進可視為非常有價值。並且,應注意在一些情況中,例如如果訊框被選擇為相對較小時,位元率上的改進可明顯更大。
綜上所述,本發明提出一種視窗序列發信的新位元流語法。該新位元流語法節約資料率且較之於舊語法更合邏輯並更靈活。其易於實施且無有關複雜性的缺失。
與現行USAC工作草案比較
在下文中,所提出現行USAC工作草案的一技術描述之本文改變將被討論。為了合併依據本發明提出之發明性改變,下文部份需被更新:在所謂的ICS資訊之語法被描述的「音訊對象類型USAC負載」之未決定義中,習知語法應被第10b圖中所示語法替換。
並且,「資料元素」「window_sequence」應由資料元素「window_length」及「transform_length」之如下定義取代:window_length:一個1-位元欄,其決定哪一視窗斜率長度用於此一視窗序列的右側部份;及transform_length:一個1-位元欄,其決定哪一轉換長度用於此一視窗序列。
另外,幫助元素「window_sequence」應依下文被加入:Window_sequence:指示依據第8圖之表格,由先前訊框之「window_length」、目前訊框的「transform_length」及「window_length」,以及下一訊框的「core_mode」定義的視窗序列。
第8圖繪示幫助元素「window_sequence」之定義,其可選擇地由先前訊框之「window_length」資訊、目前訊框的「window_length」資訊、目前訊框的「transform_length」資訊及下一訊框的「core_mode」資訊導出。
另外,「window_sequence」及「window_shape」的習知定義可由如下「window_length」、「transform_length」及「window_shape」的更適當定義替換:window_length:一個1-位元欄,其決定哪一視窗斜率長度用於此視窗的右側部份;transform_length:一個1-位元欄,其決定哪一轉換長度用於此一視窗;及window_shape:1-位元,指示哪一視窗功能被選擇。
依據第11圖之方法
第11圖繪示一種基於一輸入音訊資訊提供一經編碼音訊資訊的方法之流程圖。依據第11圖之方法1100包含一基於輸入音訊資訊之複數個視窗化部份提供一序列之音訊信號參數的步驟1110。當提供該序列音訊信號參數時,在使用具有一較長過渡斜率的視窗與具有一較短過渡斜率的視窗之間,以及在使用具有與之相關聯的兩個或兩個以上不同轉換長度的視窗之間執行一切換,以使一視窗類型適於依賴輸入音訊資訊之特性獲得輸入音訊資訊之視窗化部份。方法1100也包含一編碼一視窗資訊的步驟1120,該視窗資訊描述一種使用一可變長度碼字轉換輸入音訊資訊的一目前部份的視窗類型。
依據第12圖之方法
第12圖繪示一種基於一經編碼音訊資訊提供一經解碼音訊資訊的方法之流程圖。依據第12圖之方法1200包含一步驟1210,其評估一可變碼字長度視窗資訊,以從包含不同過渡斜率之視窗及具有與其相關聯的不同轉換長度的視窗之複數個視窗中選擇一視窗,用於處理與該音訊資訊的一特定訊框相關聯的時頻表示之特定部份。方法1200也包含使用選擇的視窗將經編碼音訊資訊描述的時頻表示的特定部份映射至一時域表示的步驟1220。
應注意依據第11圖及第12圖之方法可由本文關於發明的設備及發明的位元流特性描述的任何特徵及功能補充。
實施選擇
雖然某些層面在一設備的環境下被描述,很明顯此等層面也表示對應方法的描述,其中一方塊或裝置對應於一方法步驟或一方法步驟的一特徵。類似地,在一方法步驟內容中描述的層面也表示一對應方塊或一對應設備的項或特徵值描述。
發明的方法之任何步驟可使用一微處理器、一可程式電腦、一fpga或任一其他硬體,如舉例而言一資料處理硬體來執行。
發明的經編碼音訊信號可被儲存於一數位儲存媒體或可在一傳輸媒體諸如一無線傳輸媒體或一有線傳輸媒體諸如一網際網路上被發送。
依據某些實施要求,本發明之實施例可以硬體或軟體實施。其實施可使用一具有電子可讀控制信號儲存於其上的儲存媒體,例如一軟磁碟、一DVD、一藍光光碟、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快閃記憶體被執行,它們與一可程式電腦系統協作(或能夠與之協作)以使各個方法被執行。因此,數位儲存媒體可以是電腦可讀的。
依據本發明的某些實施例包含一具有電子可讀控制信號的資料載體,該等電子可讀控制信號能夠與一可程式電腦系統協作,以使本文所述方法之一被執行。
大體上,本發明之實施例可以一程式碼被實施成一電腦程式產品,該程式碼可操作以當該電腦程式產品在一電腦上運行時執行該等方法之一。該程式碼可例如被儲存於一機器可讀載體上。
其他實施例包含用於執行本文所述方法之一,儲存於一機器可讀載體之上的電腦程式。
因此,換句話說,所發明方法的一實施例是電腦程式,其具有一程式碼,當該電腦程式運行於一電腦上時,該程式碼用於執行本文所述方法之一。
因此,所發明方法的一另外的實施例是一資料載體(或一數位儲存媒體,或一電腦可讀媒體),其包含記錄於其上以供執行本文所述方法之一的電腦程式。
因此,所發明方法的一另外的實施例是一資料串流或一序列之信號,它們表示供執行本文所述方法之一的電腦程式。該資料串流或該序列信號可例如被組態成經由一資料通信連接,例如經由網際網路被傳送。
一另外的實施例包含一處理裝置,例如一電腦,或一可程式邏輯裝置,被組態成或適應於執行本文所述方法之一。
一另外的實施例包含一電腦,其具有安裝於其上供執行本文所述方法之一的電腦程式。
在一些實施例中,一可程式邏輯裝置(例如一現場可程式閘陣列)可被用以執行本文所述的方法的一些或全部功能。在一些實施例中,一現場可程式閘陣列可與一微處理器協作,以執行本文所述方法之一。大體上,該等方法較佳地由任一硬體設備執行。
上述實施例僅是對本發明原理的說明。應理解本文描述之佈置及細節的修改及變化對該技藝中具有通常知識者將是明顯的。因此,其意圖僅由下文專利申請專利範圍限制而不由以本文中實施例的描述及說明形式的特定細節限制。
100...音訊編碼器
110...輸入音訊資訊
120...任選預處理器
122...預處理版本
130...基於視窗之信號轉換器
132、162...音訊信號參數
136...視窗器/轉換器
138...視窗序列決定性因子
140...視窗類型資訊
150...心理聲學模型處理器
152...視窗長度資訊
154...心理聲學相關性資訊
160...任選頻譜處理器
170...縮放/量化/編碼處理器
172...經縮放、量化及編碼的頻譜資訊
180...可變長度碼字編碼器
182...可變長度碼字
190...位元流負載格式器
192...位元流
200...音訊解碼器
210...位元流
212...音訊資訊
220...位元流負載變形項
222...經編碼頻譜值資訊
224...可變碼字長度視窗資訊
230...任選解碼器/反向量化器/重新縮放器
240...頻譜預處理器
242...時頻表示
250...基於視窗之信號轉換器
252...時域音訊信號
254...轉換器/視窗器
260...任選時域後處理器
270...視窗選擇器
272...視窗資訊
310...第一視窗類型
310a...長左側視窗斜率
310b...長右側視窗斜率
312...第二視窗類型
312a...長左側視窗斜率
312b...短右側視窗斜率
314...第三視窗類型
314a...短左側視窗斜率
314b...長右側視窗斜率
316...第四視窗類型
316a...短左側視窗斜率
316b...短右側視窗斜率
318...第五視窗類型
318a...短左側視窗斜率
318b...短右側視窗斜率
319a~319...子視窗
330...stop_window_1152
332...stop_start_1152_sequence或stop_start_window_1152
362~382...附加視窗
500...視窗序列
520...第一訊框
522...第二訊框
524...第三訊框
526...第四訊框
528...第五訊框
530...第六訊框
532...第七訊框
540、542...「only_long_sequence」視窗
544...「long_start_sequence」視窗
546、550...「eight_short_sequence」視窗
548...「short_start_sequence」視窗
552...「long_stop_sequence」視窗
620、624、660、664...行
1100、1200...方法
1110~1120、1210~1220...步驟
第1a-b圖繪示依據本發明之一實施例,一音訊編碼器的方塊示意圖;
第2a-b圖繪示依據本發明之一實施例,一音訊解碼器的一方塊示意圖;
第3a-b圖繪示可依據發明的概念被使用的不同視窗類型的概要表示;
第4圖繪示不同視窗類型的視窗之間的可允許過渡的一圖示表示,其可被應用於依據本發明之實施例的設計;
第5圖繪示一系列不同視窗類型的圖示表示,其可由一發明的編碼器產生或可由一發明的音訊解碼器處理;
第6a圖繪示依據本發明之一實施例,表示一建議的位元流語法表;
第6b圖繪示從目前訊框的一視窗類型到一「window_length」資訊及一「transform_length」資訊的映射之圖示表示;
第6c圖繪示一基於一先前核心資訊、先前訊框的一「window_length」資訊、目前訊框的一「window_length」資訊及目前訊框的一「transform_length」資訊來獲得目前訊框的視窗類型的一映射的圖示表示;
第7a圖繪示表示一「window_length」資訊的語法的表格;
第7b圖繪示表示一「transform_length」資訊的語法的表格;
第7c圖繪示表示一新位元流語法及過渡的表格;
第8圖繪示提供「window_length」資訊以及「transform_length」資訊所有組合之概觀的表格;
第9圖繪示表示一可使用本發明之一實施例獲得的位元節約的表格;
第10a圖繪示一所謂的USAC原始資料塊的一語法表示;
第10b圖繪示一所謂的單通道元素的語法表示;
第10c圖繪示一所謂的雙通道元素的語法表示;
第10d圖繪示一所謂的ICS資訊的語法表示;
第10e圖繪示一所謂的頻域通道串流的語法表示;
第11圖繪示一種基於一輸入音訊資訊提供一經編碼音訊資訊之方法的流程圖;及
第12圖繪示一種用於基於一經編碼音訊資訊提供一經解碼音訊資訊之方法的流程圖。
200‧‧‧音訊解碼器
210‧‧‧位元流
212‧‧‧音訊資訊
220‧‧‧位元流負載變形項
222‧‧‧經編碼頻譜值資訊
224‧‧‧可變碼字長度視窗資訊
230‧‧‧任選解碼器/反向量化器/重新縮放器
240‧‧‧頻譜預處理器
242‧‧‧時頻表示
250‧‧‧基於視窗之信號轉換器
252‧‧‧時域音訊信號
254‧‧‧轉換器/視窗器
260‧‧‧任選時域後處理器
270‧‧‧視窗選擇器
272‧‧‧視窗資訊
Claims (16)
- 一種基於一經編碼音訊資訊提供一經解碼音訊資訊的音訊解碼器,該音訊解碼器包含:一基於視窗之信號轉換器,被組態成將由該經編碼音訊資訊描述的音訊資訊之一時頻表示映射至該音訊資訊的一時域表示,其中該基於視窗之信號轉換器被組態成使用一視窗資訊,從包含不同過渡斜率之視窗及具有與其關聯的不同轉換長度之視窗的複數個視窗中選擇一視窗;其中該音訊解碼器包含一視窗選擇器,被組態成評估一可變碼字長度視窗資訊,以選擇一視窗用來處理該時頻表示與該音訊資訊的一給定訊框相關聯的一給定部份。
- 如申請專利範圍第1項所述之音訊解碼器,其中該音訊解碼器包含一位元流解析器,該位元流解析器被組態成解析一表示該經編碼音訊資訊的位元流,且從該位元流擷取一個1-位元視窗斜率長度資訊(「window_length」),以及依據該1-位元視窗斜率長度資訊的一值,選擇性地擷取一個1-位元轉換-長度資訊(「transform_length」);且其中該視窗選擇器被組態成依據該視窗斜率長度資訊選擇性地使用或忽略該轉換長度資訊,以選擇一視窗類型來處理該時頻表示的一給定部份。
- 如申請專利範圍第1項或第2項所述之音訊解碼器,其中 該視窗選擇器被組態成選擇一視窗類型來處理該時頻資訊的一當前部份,以使處理該時頻表示之該當前部份的該視窗的一左側視窗斜率長度與用以處理該時頻表示的一先前部份的一視窗的一右側視窗斜率長度匹配。
- 如申請專利範圍第3項所述之音訊解碼器,其中該視窗選擇器被組態成,如果處理該時頻表示之先前部份的視窗之一右側視窗斜率長度採取一長值,且如果該音訊資訊的一先前部份、該音訊資訊的一當前部份,及該音訊資訊的一隨後部份全部使用一頻域核心模式被編碼,則依賴該1-位元視窗斜率長度資訊在一第一類型視窗與一第二類型視窗之間進行選擇;其中該視窗選擇器被組態成,如果處理該音訊資訊的一先前部份的該視窗之一右側視窗斜率長度採取一短值,且如果該音訊資訊的先前部份、該音訊資訊的當前部份及該音訊資訊的隨後部份全部使用一頻域核心模式被編碼,則響應於指示一長右側視窗斜率的該1-位元視窗斜率長度資訊的一第一值來選擇一第三類型視窗;及其中該視窗選擇器被組態成如果該1-位元視窗斜率長度資訊採取一指示一短右側視窗斜率的第二值、如果處理該音訊資訊之先前部份的該視窗之該右側視窗斜率長度採取一短值,且如果該音訊資訊之先前部份、該音訊資訊之當前部份及該音訊資訊之隨後部份全部使用一頻域核心模式被編碼,則依賴一個1-位元轉換長 度資訊,在一第四類型視窗與一第五類型視窗之間進行選擇,這定義了一短視窗序列;其中該第一視窗類型包含一相對長左側視窗斜率長度、一相對長右側視窗斜率長度及一相對長轉換長度;其中該第二視窗類型包含一相對長左側視窗斜率長度、一相對短右側視窗斜率長度及一相對長轉換長度;其中該第三視窗類型包含一相對短左側視窗斜率長度、一相對長右側視窗斜率長度及一相對長轉換長度;其中該第四視窗類型包含一相對短左側視窗斜率長度、一相對短右側視窗斜率長度及一相對長轉換長度;及其中該第五視窗類型的視窗序列定義與該音訊資訊之一單一部份相關聯的複數個視窗的一疊加,且其中該等複數個視窗中的每一視窗包含一相對短轉換長度、一相對短左側視窗斜率及一相對短右側視窗斜率。
- 如申請專利範圍第1項所述之音訊解碼器,其中該視窗選擇器被組態成僅當處理該音訊資訊之一先前部份的一視窗類型包含與短視窗的一視窗序列之一左側視窗斜率長度匹配的一右側視窗斜率長度,且一個與該時頻表示的一當前部份相關聯的1-位元視窗斜率長度資訊定義與短視窗之視窗序列的右側視窗斜率長度匹配的 一右側視窗斜率長度時,選擇性地評估該音訊資訊的一當前部份之該可變碼字長度視窗資訊的一轉換長度位元。
- 如申請專利範圍第1項所述之音訊解碼器,其中該視窗選擇器進一步被組態成接收與該音訊資訊的一先前訊框相關聯且描述編碼該音訊資訊之先前訊框的一核心模式的一先前核心模式資訊;及其中該視窗選擇器被組態成依賴該先前核心模式資訊且也依賴與該音訊資訊之當前部份相關聯的該可變碼字長度視窗資訊,選擇供處理該時頻表示的一當前部份的一視窗類型。
- 如申請專利範圍第1項所述之音訊解碼器,其中該視窗選擇器被進一步組態成接收與該音訊資訊的一隨後部份相關聯,且描述一供編碼該音訊資訊之隨後部份之核心模式的一隨後核心模式資訊;及其中該視窗選擇器被組態成依賴該隨後的核心模式資訊並且依賴與該時頻表示的該當前部份相關聯的該可變碼字長度視窗資訊,選擇供處理該音訊資訊的一當前部份的一視窗。
- 如申請專利範圍第7項所述之音訊解碼器,其中如果該隨後核心模式資訊指示該音訊資訊的一隨後部份使用一線性預測域核心模式被編碼,則該視窗選擇器被組態成選擇具有一縮短的右側斜率之視窗。
- 一種基於一輸入音訊資訊提供一經編碼音訊資訊的音 訊編碼器,該音訊編碼器包含:一基於視窗之信號轉換器,其被組態成基於該輸入音訊資訊的複數個視窗化部份提供一序列之音訊信號參數,其中該基於視窗之信號轉換器被組態成依賴該輸入音訊資訊之特性調適用以獲得該輸入音訊資訊的視窗化部份之視窗類型;其中該基於視窗之信號轉換器被組態成在具有一較長過渡斜率的視窗與具有一較短過渡斜率之視窗的使用之間切換,以及在具有兩個或兩個以上不同轉換長度之視窗的使用之間切換;且其中該基於視窗之信號轉換器被組態成依據用於轉換該輸入音訊資訊的一先前部份的一視窗類型及該輸入音訊資訊的當前部份的一音訊內容,決定一被用於轉換該輸入音訊資訊的一當前部份之一視窗類型;其中該音訊編碼器被組態成編碼一視窗資訊,該視窗資訊描述供使用一可變長度碼字轉換該輸入音訊資訊的當前部份的一視窗類型。
- 如申請專利範圍第9項所述之音訊編碼器,其中該音訊編碼器被組態成提供該可變長度碼字,使得與該時頻表示之一給定部份相關聯的該可變長度碼字包含一單一位元資訊,該單一位元資訊描述一被用於獲得該時頻表示之給定部份之一視窗的一視窗斜率長度;及其中該音訊編碼器被組態成若且惟若描述該視窗 斜率長度的該單一位元資訊採取一預定值時,提供該可變長度碼字,使得該可變長度碼字可選擇地包含一個單一位元轉換長度資訊,該單一位元轉換長度資訊描述用於獲得該時頻表示之該給定部分的一轉換長度。
- 如申請專利範圍第9項或第10項所述之音訊編碼器,其中該音訊編碼器被組態成使用該位元流的個別位元編碼描述被用於獲得該時頻表示的一特定部份的一視窗之一右側視窗斜率長度的一視窗斜率長度資訊,及描述用於獲得該時頻表示之該特定部份的一轉換長度資訊,且依賴該視窗斜率長度資訊之值決定一攜帶該轉換長度資訊之位元的存在。
- 一種包含經編碼音訊資訊之數位儲存媒體,該經編碼音訊資訊包含:描述一音訊信號之複數個視窗化部份的一音訊內容的一經編碼的時頻表示,其中不同過渡斜率及不同轉換長度的視窗與該音訊信號的不同的該等視窗化部份相關聯;及編碼視窗類型的一經編碼視窗資訊,該等視窗類型被用於獲得該音訊信號之複數個視窗化部份的該經編碼時頻表示,其中該經編碼視窗資訊是一可變長度視窗資訊,其使用一第一、較低數目的位元編碼一或一個以上的視窗類型,且使用一第二、較大數目的位元編碼一或一個以上其他視窗類型。
- 如申請專利範圍第12項所述之包含經編碼音訊資訊之該數位儲存媒體,其中該經編碼音訊資訊包含與使用一頻域核心模式被編碼的一音訊信號之對應視窗化部份相關聯的1-位元視窗斜率長度資訊位元;且1-位元轉換長度資訊單元係選擇性地與該1-位元視窗斜率長度資訊採取一預定值之該音訊信號的視窗化部份相關聯。
- 一種用於基於一經編碼音訊資訊提供一經解碼音訊資訊的方法,該方法包含:評估一可變碼字長度視窗資訊,以從包含不同過渡斜率的視窗與具有相關聯之不同轉換長度的視窗的複數個視窗中選擇一視窗,用於處理與該音訊資訊的一給定訊框相關聯的一時頻表示之一給定部份;及將由該經編碼音訊資訊描述的該時頻表示之給定部份使用該已選擇視窗映射至一時域表示。
- 一種基於一輸入音訊資訊提供一經編碼音訊資訊的方法,該方法包含:基於該輸入音訊資訊的複數個視窗化部份提供一序列之音訊信號參數,其中在使用具有一較長過渡斜率的視窗與具有一較短過渡斜率視窗之間,及在使用具有相關聯之兩個或兩個以上不同轉換長度的視窗之間執行一切換,以依賴該輸入音訊資訊之特性調適用以獲得該輸入音訊資訊之該等視窗化部份的視窗類型;及編碼描述用於使用可變長度碼字轉換部份之該輸 入音訊資訊之視窗類型的一資訊。
- 一種包含一電腦程式之電腦程式產品,其用於當其運行於一電腦上時執行如申請專利範圍第14項或第15項所述之方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14788709P | 2009-01-28 | 2009-01-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201032218A TW201032218A (en) | 2010-09-01 |
TWI459375B true TWI459375B (zh) | 2014-11-01 |
Family
ID=42289346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099102406A TWI459375B (zh) | 2009-01-28 | 2010-01-28 | 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式 |
Country Status (15)
Country | Link |
---|---|
US (1) | US8762159B2 (zh) |
EP (1) | EP2382625B1 (zh) |
JP (1) | JP2012516462A (zh) |
KR (1) | KR101316979B1 (zh) |
CN (1) | CN102334160B (zh) |
AR (1) | AR075199A1 (zh) |
AU (1) | AU2010209756B2 (zh) |
BR (1) | BRPI1005300B1 (zh) |
CA (1) | CA2750795C (zh) |
ES (1) | ES2567129T3 (zh) |
HK (1) | HK1163914A1 (zh) |
MX (1) | MX2011007925A (zh) |
RU (1) | RU2542668C2 (zh) |
TW (1) | TWI459375B (zh) |
WO (1) | WO2010086373A2 (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
ES2564400T3 (es) * | 2008-07-11 | 2016-03-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y descodificador de audio para codificar y descodificar muestras de audio |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
KR101551046B1 (ko) | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
SG192747A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Encoding and decoding of pulse positions of tracks of an audio signal |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
CN105304090B (zh) * | 2011-02-14 | 2019-04-09 | 弗劳恩霍夫应用研究促进协会 | 使用对齐的前瞻部分将音频信号编码及解码的装置与方法 |
EP2676268B1 (en) | 2011-02-14 | 2014-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
AR085217A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad |
PL2676264T3 (pl) | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
WO2012126891A1 (en) * | 2011-03-18 | 2012-09-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frame element positioning in frames of a bitstream representing audio content |
US8838261B2 (en) * | 2011-06-03 | 2014-09-16 | Apple Inc. | Audio configuration based on selectable audio modes |
JP5799707B2 (ja) * | 2011-09-26 | 2015-10-28 | ソニー株式会社 | オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム |
JP2015525374A (ja) * | 2012-06-04 | 2015-09-03 | サムスン エレクトロニクス カンパニー リミテッド | オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器 |
KR20140075466A (ko) * | 2012-12-11 | 2014-06-19 | 삼성전자주식회사 | 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치 |
AR094845A1 (es) * | 2013-02-20 | 2015-09-02 | Fraunhofer Ges Forschung | Aparato y método para codificar o decodificar una señal de audio utilizando una superposición dependiente de la ubicación de un transitorio |
US20150100324A1 (en) * | 2013-10-04 | 2015-04-09 | Nvidia Corporation | Audio encoder performance for miracast |
EP2980791A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
CN105632503B (zh) * | 2014-10-28 | 2019-09-03 | 南宁富桂精密工业有限公司 | 信息隐藏方法及系统 |
US10504530B2 (en) * | 2015-11-03 | 2019-12-10 | Dolby Laboratories Licensing Corporation | Switching between transforms |
CN117238300A (zh) | 2016-01-22 | 2023-12-15 | 弗劳恩霍夫应用研究促进协会 | 使用帧控制同步来编码或解码多声道音频信号的装置和方法 |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
KR102632136B1 (ko) | 2017-04-28 | 2024-01-31 | 디티에스, 인코포레이티드 | 오디오 코더 윈도우 사이즈 및 시간-주파수 변환 |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
KR20210022546A (ko) * | 2018-06-21 | 2021-03-03 | 소니 주식회사 | 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램 |
CN111862953B (zh) * | 2019-12-05 | 2023-08-22 | 北京嘀嘀无限科技发展有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070180980A1 (en) * | 2006-02-07 | 2007-08-09 | Lg Electronics Inc. | Method and apparatus for estimating tempo based on inter-onset interval count |
US20080097749A1 (en) * | 2006-10-18 | 2008-04-24 | Polycom, Inc. | Dual-transform coding of audio signals |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2654294B1 (fr) | 1989-11-08 | 1992-02-14 | Aerospatiale | Torche a plasma a amorcage par court-circuit. |
JP2853553B2 (ja) * | 1994-02-22 | 1999-02-03 | 日本電気株式会社 | 動画像符号化方式 |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
KR100335609B1 (ko) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
KR100335611B1 (ko) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
US6446037B1 (en) * | 1999-08-09 | 2002-09-03 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7110953B1 (en) * | 2000-06-02 | 2006-09-19 | Agere Systems Inc. | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction |
AU2001284910B2 (en) * | 2000-08-16 | 2007-03-22 | Dolby Laboratories Licensing Corporation | Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
SE0402651D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods for interpolation and parameter signalling |
US8180631B2 (en) | 2005-07-11 | 2012-05-15 | Lg Electronics Inc. | Apparatus and method of processing an audio signal, utilizing a unique offset associated with each coded-coefficient |
US8036903B2 (en) | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
KR101490246B1 (ko) * | 2007-07-02 | 2015-02-05 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
-
2010
- 2010-01-28 TW TW099102406A patent/TWI459375B/zh active
- 2010-01-28 AR ARP100100218A patent/AR075199A1/es active IP Right Grant
- 2010-01-28 RU RU2011133691/08A patent/RU2542668C2/ru active
- 2010-01-28 ES ES10720358.0T patent/ES2567129T3/es active Active
- 2010-01-28 WO PCT/EP2010/050998 patent/WO2010086373A2/en active Application Filing
- 2010-01-28 CN CN201080009687.5A patent/CN102334160B/zh active Active
- 2010-01-28 AU AU2010209756A patent/AU2010209756B2/en active Active
- 2010-01-28 BR BRPI1005300-0A patent/BRPI1005300B1/pt active IP Right Grant
- 2010-01-28 MX MX2011007925A patent/MX2011007925A/es active IP Right Grant
- 2010-01-28 JP JP2011546842A patent/JP2012516462A/ja active Pending
- 2010-01-28 CA CA2750795A patent/CA2750795C/en active Active
- 2010-01-28 EP EP10720358.0A patent/EP2382625B1/en active Active
- 2010-01-28 KR KR1020117018596A patent/KR101316979B1/ko active IP Right Grant
-
2011
- 2011-07-26 US US13/191,246 patent/US8762159B2/en active Active
-
2012
- 2012-04-27 HK HK12104173.7A patent/HK1163914A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070180980A1 (en) * | 2006-02-07 | 2007-08-09 | Lg Electronics Inc. | Method and apparatus for estimating tempo based on inter-onset interval count |
US20080097749A1 (en) * | 2006-10-18 | 2008-04-24 | Polycom, Inc. | Dual-transform coding of audio signals |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
Also Published As
Publication number | Publication date |
---|---|
CA2750795C (en) | 2015-05-26 |
WO2010086373A3 (en) | 2010-10-07 |
CN102334160A (zh) | 2012-01-25 |
AR075199A1 (es) | 2011-03-16 |
JP2012516462A (ja) | 2012-07-19 |
BRPI1005300B1 (pt) | 2021-06-29 |
AU2010209756B2 (en) | 2013-10-31 |
EP2382625B1 (en) | 2016-01-06 |
TW201032218A (en) | 2010-09-01 |
KR101316979B1 (ko) | 2013-10-11 |
CN102334160B (zh) | 2014-05-07 |
US8762159B2 (en) | 2014-06-24 |
EP2382625A2 (en) | 2011-11-02 |
RU2542668C2 (ru) | 2015-02-20 |
RU2011133691A (ru) | 2013-03-10 |
KR20110124229A (ko) | 2011-11-16 |
WO2010086373A2 (en) | 2010-08-05 |
HK1163914A1 (zh) | 2012-09-14 |
AU2010209756A1 (en) | 2011-08-25 |
BRPI1005300A2 (pt) | 2016-12-06 |
US20120022881A1 (en) | 2012-01-26 |
MX2011007925A (es) | 2011-08-17 |
ES2567129T3 (es) | 2016-04-20 |
CA2750795A1 (en) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI459375B (zh) | 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式 | |
TWI571863B (zh) | 具有彈性組態功能之音訊編碼器及解碼器 | |
AU2008326956B2 (en) | A method and an apparatus for processing a signal | |
RU2665887C1 (ru) | Декодирование битовых аудиопотоков с метаданными расширенного копирования спектральной полосы по меньшей мере в одном заполняющем элементе | |
EP2862165B1 (en) | Smooth configuration switching for multichannel audio rendering based on a variable number of received channels | |
JP6248194B2 (ja) | 多チャネルオーディオ符号化におけるノイズ充填 | |
US20140257824A1 (en) | Apparatus and a method for encoding an input signal | |
JP7311940B2 (ja) | 変換長切替えをサポートする周波数ドメインオーディオ符号化 | |
EP2036204B1 (en) | Method and apparatus for an audio signal processing | |
KR20190103364A (ko) | 오디오 디코더, 오디오 인코더, 디코딩된 오디오 신호를 제공하기 위한 방법, 인코딩된 오디오 신호를 제공하기 위한 방법, 오디오 스트림, 오디오 스트림 제공기, 및 스트림 식별자를 사용하는 컴퓨터 프로그램 | |
US20110311063A1 (en) | Embedding and extracting ancillary data | |
WO2021046060A1 (en) | Low-latency, low-frequency effects codec | |
TWI732403B (zh) | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |