TWI413107B - 具有多重階段編碼簿及冗餘編碼之子頻帶語音編碼/解碼的方法 - Google Patents

具有多重階段編碼簿及冗餘編碼之子頻帶語音編碼/解碼的方法 Download PDF

Info

Publication number
TWI413107B
TWI413107B TW095112871A TW95112871A TWI413107B TW I413107 B TWI413107 B TW I413107B TW 095112871 A TW095112871 A TW 095112871A TW 95112871 A TW95112871 A TW 95112871A TW I413107 B TWI413107 B TW I413107B
Authority
TW
Taiwan
Prior art keywords
information
coding
frame
codebook
active
Prior art date
Application number
TW095112871A
Other languages
English (en)
Other versions
TW200641796A (en
Inventor
Tian Wang
Kazuhito Koishida
Hosam A Khalil
Xiaoqin Sun
Wei-Ge Chen
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200641796A publication Critical patent/TW200641796A/zh
Application granted granted Critical
Publication of TWI413107B publication Critical patent/TWI413107B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

具有多重階段編碼簿及冗餘編碼之子頻帶語音編碼/解碼的方法
描述關於音訊資訊之編碼/解碼(codec)的技術及工具,特別是關於子頻帶編碼、編碼簿、和/或冗餘編碼。
隨著數位無線電話網路、透過網際網路之串流音訊、及網際網路電話通訊的發展,語音之數位處理及傳輸也愈發常見。工程師運用了多種技術來有效處理語音且同時維持品質。了解這些技術有助於理解在一電腦中如何表示並處理音訊資訊。
一、音訊資訊於一電腦中之表示
一電腦可能夠以表示該音訊之一系列數字來處理音訊資訊.一單一數字能表示一音訊樣本,該數字為在一特定時間的一振幅值。多種因素可影響音訊之品質,包括樣本深度及抽樣率。
樣本深度(或精度)可指示用以表示一樣本之數目範圍。關於每一種樣本較有可能之數值通常會產生較高品質輸出因為能表示振幅中更精細的變異.一種8位元樣本具有256種可能值,而一種16位元樣本具有65,536種可能值。
抽樣率(通常以每秒樣本之數目來測量)亦影響品質。抽樣率越高品質也越較高,因為能表示更多聲音之頻率。某些常用的抽樣率為8,000、11,025、22,050、32,000、44,100、48,000、及96,000樣本/秒(Hz)。表1顯示具有不同品質程度之數種音訊格式,以及相對應的原始位元率代價。
如表1所示,高品質音訊之代價為高位元率。高品質音訊資訊耗費大量電儲存及傳輸能力。許多電腦及電腦網路欠缺處理原始數位音訊之資源。壓縮(亦稱為編碼)可藉由將資訊轉圜換成一種較低位元率以減低儲存及傳輸音訊資訊之成本。壓縮可以是不失真(不會減損品質)或失真(會減損品質但後續壓縮造成之位元率減低更為顯著)。解壓縮(亦稱為解碼)可萃取來自壓縮形式之原始資訊的一種重建版本.一編碼/解碼器是一種系統。
二、語音編碼器及解碼器
音訊壓縮的目標之一在於數位地表示音訊信號以便對一固定數量之位元數提供最高信號品質。換句話說,此一目標係利用最少位元數在一指定品質程度下來表示音訊信號。其他目標例如對傳輸錯誤之抗障性及限制由於編碼/傳輸/解碼運用於某些情形時所導致之整體延遲。
不同類型之音訊信號擁有不同特徵。音樂的特徵是大範圍之頻率及振幅,且經常包括二或更多種頻道。另一方面,語音之特徵為較小範圍之頻率及振幅,且通常表示於一種單一頻道中。某些編碼/解碼器(codec)及處理技術適用於音樂及一般音訊;其他編碼/解碼器及處理技術適用於語音。
一種傳統語音編碼/解碼器類型利用線性預測來完成壓縮。語音編碼包括數種階段。編碼器發現並定量一線性預測濾波器之係數,其可用於將樣本值視為先前樣本值之線性組合而預測之一殘餘信號(表示成一「激勵“exitation”」信號)可指出濾波器並未正確地預測原始信號之部份。在某些階段,語音編碼/解碼器可針對有聲段(以聲帶振動為特徵)、無聲段、及靜音段利用不同壓縮技術,這是因為不同種類的語音擁有不同特徵。有聲段通常具有高度重複之語音樣式,即便在殘餘域中。對於有聲段,編碼器可藉由將現用殘餘信號和上一殘餘循環進行比較並以相對於上一循環之延遲或滯後資訊來編碼現用殘餘信號以便進行進一步壓縮。編碼器可利用特別設計之編碼簿來處理其他原始信號及預測之、編碼之表示間的差異。
許多語音編碼/解碼器能夠以某些方式利用一信號中之時間冗餘。如上所述,一種常用的方式係利用間距參數之長期預測以便以相對於上一激勵循環之延遲或滯後來預測一現用激勵信號。運用時間冗餘能大幅改進品質及位元率方面之壓縮效率,但其代價為造成編碼/解碼器中之記憶體相依性,前述編碼/解碼器是一種解碼器其依賴先前解碼之信號的一部份以正確地解碼該信號之另一部份。多種有效的語音編碼/解碼器擁有明顯的記憶體相依性。
雖然上述語音編碼/解碼器在多種應用中擁有良好的整體效能,其擁有某些缺點。特別是多種明顯的缺點,當連同網路資源利用語音編碼/解碼器時。在此種情形中,可能因為暫時頻寬不足或其他問題導致編碼之語音遺失。
A.窄頻及編碼/解碼器
已設計多種可用於具有8 kHz抽樣率之窄頻信號的語音編碼/解碼。雖然在許多情形中適合使用8 kHz抽樣率,在其他情形中則可能需要使用較高抽樣率,例如為了表示較高頻率時。
具有至少16 kHz抽樣率之語音信號通常稱為寬頻語音。雖然為了表示高頻率語音樣式可能需要這些編碼/解碼器,他們通常需要比窄頻編碼/解碼器更高之位元率。在某些網路類型或某些網路情形下,此種較高位元率可能不可行。
B.動態網路情形中的無效率記憶體相依性
當編碼之語音損失時,例如其可能遺失、延遲、損壞、或在傳輸中或其他地方因其他原因無法使用時,語音編碼/解碼器之效能可能因為對於損失之資訊的記憶體相依性而減低.一激勵信號之資訊損失有礙後續依賴損失之信號進行重建。若上一循環發生損失,滯後資訊可能無用,因為其係指向解碼器欠缺之資訊。記憶體相依性之另一種實施力為濾波器係數內插(用以平滑不同合成濾波器間之轉移,特別是有聲信號)。若一幀(frame)之濾波器係數出現損失,後續幀之濾波器係數可能會出現不正確的值。
解碼器利用多種技術來隱藏因為封包損失及其他資訊損失造成的錯誤,但這些隱藏技術鮮少能完整隱藏錯誤。舉例而言,解碼器可重複上一參數或根據正確解碼之資訊來估計參數。然而,滯後資訊可能非常敏感,且先前技術無法特別有效進行前述隱藏。
在大多數的情形中,解碼器最終能克服因損失之資訊產生之錯誤。雖著接收並解碼封包,可逐漸將參數向正確數值調整。然而,品質可能會下降,直到解碼器能回復到正確的內部狀態。在許多最有效率之語音編碼/解碼器中,播放品質會隨著時間延長(如,最長到1秒)而降低,導致大幅失真且通常使得語音難以理解。當發生大幅改變時,恢復時間較快,如一無聲幀,因其對許多參數提供了一種自然的重置點。某些編碼/解碼器較不易受到封包損失之影響,因為其移除了幀間的相依性。然而,此種編碼/解碼器需要顯著較高之位元率方能達到和具有幀間相依性之傳統CELP編碼/解碼器的同樣聲音品質。
了解壓縮及解壓縮對於在電腦系統中表示語音信號之重要性後,就不難理解為何壓縮及解壓縮語音吸引了大量的研發與標準化活動。然而,不論先前技術及工具之優點為何,其皆欠卻此處所述之技術及工具所具備之優點。
簡言之,實施方式係關於用於音訊編碼/解碼器及之各種技術及工具,特別是關於子頻帶編碼、音訊編碼/解碼器編碼簿、冗餘編碼之工具及技術。所述具體實施例實作了一或更多種所述技術及工具,包括但不限於下列:在一種態樣中,一音訊信號之一種位元串流包括一現用幀之主編碼資訊其可參照將用於解碼現用幀之一種上一幀的一段,以及可用於解碼現用幀的冗餘編碼資訊。冗餘編碼資訊包括與上一幀中參照之段相關的信號歷史資訊。
在另一種態樣中,一音訊信號的一位元串流包括一現用編碼單元之主編碼資訊其可參照將用於解碼現用編碼單元之一種上一編碼單元的一段,以及用於解碼現用編碼單元之冗餘編碼資訊。冗餘編碼資訊包括一或更多種參數,其可用於在僅當上一編碼單元不可用時將用於解碼現用編碼單元之一或更多種額外編碼簿階段。
在另一種態樣中,一位元串流包括多種編碼之音訊單元,且每一種編碼單元包括一欄位。該欄位可指示編碼單元是否包括可表示一段音訊信號之主編碼資訊,及編碼單元是否包括用於解碼主編碼資訊之冗餘編碼資訊。
在另一種態樣中,將一音訊信號分解成多種頻率子頻帶。根據編碼激勵之線性預測模型來編碼每一種子頻帶。位元串流可包括複數編碼單元,其個別表示音訊信號之一段,且其中該複數編碼單元至少包含一第一種編碼單元可表示頻率子頻帶之第一種數字及一第二種編碼單元可表示頻率子頻帶之第二種數字,由於遺漏了第一種編碼單元或第二種編碼單元之子頻帶資訊,導致子頻帶之第二種數字和子頻帶之第一種數字不同。可根據一第一種編碼模式編碼一第一種頻帶,並根據一不同的第二種編碼模式編碼一第二種子頻帶。第一種及第二種編碼模式能利用不同數目之編碼簿階段。可獨立編碼每一種子頻帶。更有甚者,一即時語音編碼器能處理位元串流,包括將音訊信號分解成前述多種頻率子頻帶並編碼前述多種頻率子頻帶。處理位元串流可包括解碼前述多種頻率子頻帶及合成前述多種頻率子頻帶。
在另一種態樣中,一音訊信號之一位元串流包括一第一種編碼簿階段群組之參數,其可用於表示音訊信號之第一段,該第一種編碼簿階段群組包括一第一組複數之固定編碼簿階段。該第一組複數之固定編碼簿階段能包括多種隨機之固定階段。該固定編碼簿階段能包括一脈衝編碼簿階段及一隨機編碼簿階段。第一種編碼簿階段群組能更包括一適應性編碼簿階段。位元串流能更包括一第二種編碼簿階段群組之參數,其可用於表示音訊信號之第二段,且第二種群組之編碼簿階段數目和第一種群組不同。可根據一或更多種因子包括音訊信號之第一段的一或更多種來選擇第一種編碼簿階段群組中之編碼簿階段數目。可根據一或更多種因子包括該編碼器及一解碼器間之網路傳輸情形來選擇第一種編碼簿階段群組中編碼簿階段之數目。對於複數之固定編碼簿階段之每一種,位元串流可包括一獨立索引及一獨立增益。利用獨立增益有助於信號匹配且利用獨立索引可簡化搜尋。
在另一種態樣中,對於利用一適應性編碼簿之多種可參數化單元之每一種,一位元串流包括一欄位以指示在該單元中是否使用了適應性參數。單元可以是音訊信號之複數幀的子幀.一音訊處理工具,例如一即時語音編碼器,可處理位元串流,包括決定在每一單元中是否使用適應性參數。決定是否使用適應性參數能包括決定一適應性增益是否高於一閾值。再者,決定是否利用適應性參數能包括評估幀之一或更多種特徵。更有甚者,決定是否利用適應性參數能包括評估該編碼器及一解碼器間之一或更多種網路傳輸特性。該欄位可以是每一有聲單元中一種1位元旗標。該欄位可以是音訊信號之一語音幀的每一子幀中一種1位元旗標,且該欄位可能不會包括於其他類型的幀中。
多種技術及工具可組合或獨立運用。
由下列不同具體實施例之實施方式並參照附隨圖式可了解本發明之額外特徵與優點。
所述之具體實施例係關於用於處理編碼及解碼中之音訊資訊的技術及工具。利用這些技術可以改良由一語音編碼/解碼器,例如一即時語音編碼/解碼器,衍生之語音品質。
可經由獨立或組合利用各種技術及工具來達到此種改良。此種技術及工具可包括利用線性預測技術如CELP來編碼和/或解碼子頻帶。
該技術亦可包括具有多重編碼簿階段之固定編碼簿,包括脈衝隨機之固定編碼簿。編碼簿階段之數目可改變以便最佳化一指定位元率之品質。此外,可隨著因子之不同如例如所想之位元率及現用幀或子幀之功能,開啟或關閉一適應性編碼簿。
更有甚者,幀可包括該現用幀所依賴之一種上一幀的部份或全部之冗餘編碼資訊。若上一幀失落時,解碼器可利用該資訊以解碼該現用幀,而不需要求將整個上一幀傳送多次。可將此種資訊編碼成和現用或上一幀相同之位元率,或一較低位元率。更有甚者,此種資訊可包括隨機編碼簿資訊,其可近似激勵信號之所想部份,而非激勵信號之所想部份的一完整編碼。
雖然此處為達闡明本發明之目的,以一種特定、依序之方式來描述各種技術之作業,可以理解,此種敘述方法僅含有作業順序之少數重新排列,除非需要一特定排序。舉例而言,在某些情形中,可重新排列或同時使用依序所述之作業。更有甚者,為求簡便,流程圖可能不會顯示可供特定技術連同其他技術一起運用之各種方式。
一、運算環境
第1圖闡明可供一或更多種所述之具體實施例於其中實作之一種一適當運算環境(100)的一般性實施例。運算環境(100)之本意並非對本發明之使用範圍或功能提出任何限制,因為本發明可實作於多種一般用途或特殊用途運算環境中。
參照第1圖,運算環境(100)包括至少一種處理單元(110)及記憶體(120)。在第1圖中,以一虛線來函蓋此種最基本之組態(130)。處理單元(110)能執行電腦可執行指令且可以是一種真實或虛擬處理器。在一種多處理系統中,多重處理單元可執行電腦可執行指令以增加處理能力。記憶體(120)可以是易變記憶體(如,暫存器、快取、RAM)、非易變記憶體(如,ROM、EEPROM、快閃記憶體、等),或前二者之某些組合。記憶體(120)可儲存供一語音編碼器或解碼器實作子頻帶編碼、多編碼簿階段編碼簿、和/或冗餘編碼技術之軟體(180)。
一運算環境(100)可擁有額外功能。在第1圖中,運算環境(100)包括儲存器(140)、一或更多種輸入裝置(150)、一或更多種輸出裝置(160)、以及一或更多種通訊連線(170)一互連機制(此處未顯示)例如一匯流排、控制卡、或網路可互相連接運算環境(100)之元件。傳統上,作業系統軟體(此處未顯示)提供一種作業環境供其他軟體在該運算環境(100)中執行,且可協調運算環境(100)之元件的活動。
儲存器(140)可以是可移除或非可移除,且可包括磁碟、磁帶或磁匣、CD-ROM、CD-RW、或任何可用於儲存資訊且可在運算環境(100)中供存取之其他媒體。儲存器(140)可儲存用於軟體(180)之指令。
輸入裝置(們)(150)可以是一種觸控輸入裝置例如一鍵盤、滑鼠、筆、或軌跡球;一語音輸入裝置;一掃描裝置;網路配接卡;或另一種可供輸入至運算環境(100)之裝置。關於音訊,輸入裝置(們)(150)可以是一種音效卡、麥克風、或能夠以類比或數位形式接收音訊輸入之其他裝置、或能夠提供音訊樣本給運算環境(100)之一種讀取器。輸出(們)(160)可以是一種螢幕、印表機、擴音器、CD/DVD燒錄器、網路配接卡、或可自運算環境(100)提供輸出之另一種裝置。
通訊連接(170)使得可利用一通訊媒體和另一種運算實體建立通訊。通訊媒體可傳送資訊例如電腦可執行指令、壓縮之語音資訊、或一模組化資料信號中之其他資料.一種模組化資料信號是具有一或更多種其特性組之一種信號或該信號可以此種方式改變以編碼該信號中之資訊。作為例示且非限制,通訊媒體包括連同一種電子、光學、紅外線、聲波或其他載波實作之有線或無線技術。
此處能夠以電腦可讀取媒體之一般脈絡來描述本發明。電腦可讀取媒體為可在一中存取之運算環境任何可用媒體。作為例示且非限制,對運算環境(100)而言,電腦可讀取媒體包括記憶體(120)、儲存器(140)、通訊媒體、及任何上述之組合。
此處能夠以電腦可執行指令之一般脈絡來描述本發明,例如包括於程式模組中者、在一目標實際或虛擬處理器上之一種運算環境中執行者.一般而言,程式模組包括常式、程式、程式館、物件、類別、元件、資料結構等能夠執行特定動作或實作抽象資料類型者。在各種具體實施例中,可以隨需求結合或分離程式模組間之程式模組之功能。可在一種區域或分散式運算環境中執行程式模組之電腦可執行指令。
為了進行說明,實施方式中運用名詞如「決定」、「產生」、「調整」、「套用」等以描述一運算環境中之電腦作業。關於一電腦執行之作業,這些名詞為高度抽象的,且不應涉及人類所執行之動作。鄉對於這些名詞之實際電腦作業會隨著實作而異。
二、一般化網路環境及即時語音編碼/解碼器
第2圖為一種一般化網路環境(200)之一種區塊圖,其可連同一或更多種所述之具體實施例實作一網路(250)將各種編碼器端元件和各種解碼器端元件分離開來。
編碼器端及解碼器端元件之主要功能分別為語音編碼及解碼。在編碼器端,一輸入緩衝器(210)接收並儲存語音輸入(202)。語音編碼器(230)可自輸入緩衝器(210)取得語音輸入(202)並編碼之。
更明確地說,一幀分割器(212)可將語音輸入(202)之樣本分割成幀。在一種實作中,對於8 kHz之輸入將幀均等分割為長20ms之160個樣本,且對於16 kHz之輸入將幀均等分割成320輸個樣本。在其他實作中,幀可擁有不同的持續期間、可以是一致的或重疊的、和/或輸入(202)之抽樣率可能不同。可將針對編碼及解碼之不同階段將幀組織成一種超幀/幀、幀/子幀、或其他組態。
一種幀分類器(214)可根據一或更多種準則針對子幀或整個幀來分類該幀,例如信號之能量、零交叉率、長期預測增益、增益微分、和/或其他準則。根據該準則,幀分類器(214)可將不同幀分類成各類別例如靜音、無聲、有聲、且轉移(如,從無聲至有聲)。此外,如果有的話,可根據用於該幀之冗餘編碼之類型來分類該幀。幀類別可影響用於運算以編碼該幀之參數。除此之外,類別可影響用以編碼參數之解析度及損失抗障性,以致可提供更高解析度及損失抗障性給較重要的幀類別及參數。舉例而言,無聲幀通常以非常低的編碼率進行編碼,且若失落時可藉由隱藏輕易恢復,且可能不需要針對損失進行保護。無聲幀通常以稍高之編碼率來編碼,若失落時藉由隱藏來恢復還算簡單,且不需要針對損失進行顯著的保護。有聲及轉移幀通常以更多位元來編碼,隨著幀的複雜度以及轉移的存在而不同。若失落時,有聲及轉移幀亦難以恢復,且也因而需要針對損失進行更顯著的保護。或者是,幀分類器(214)可利用其他額外的幀類別。
可在套用一編碼模型例如CELP編碼模型至一幀之子頻帶資訊之前,將輸入語音信號劃分成信號。可利用一系列一或更多種分析濾波器庫(例如QMF分析濾波器)(216)來進行。舉例而言,若欲利用一種三頻帶結構,則可藉由讓信號通過一低通濾波器以分割出低頻率頻帶。相似地,可藉由讓信號通過一高通濾波器以分割出高頻帶。可藉由讓信號通過一帶通濾波器以分割出中頻帶,該帶通濾波器能包括依序連接之一低通濾波器及一高通濾波器。或者是,亦可利用其他類型之濾波器排列來進行子頻帶分解和/或濾波器時間(如在進行幀分割之前)。若針對該信號之一部份僅需解碼一頻帶時,該部份可繞過分析濾波器庫(216)。CELP編碼通常具有比用於語音信號之ADPCM及MLT更高之編碼效率。
可由抽樣率決定頻帶n之數目。舉例而言,在一種實作中,一單一頻帶結構可用於8 kHz之抽樣率。至於16 kHz及22.05 kHz之抽樣率,可利用第3圖中所示之一種三頻帶結構。在第3圖之三頻帶結構中,低頻率頻帶(310)可延伸完整頻寬F之一半(由0至0.5F)。在中頻帶(320)及高頻帶(330)之間均等劃分將頻寬的另一半。靠近頻帶相交處,一頻帶之頻率回應可由通過點至停止點逐漸減低,其特徵為當接近相交部位時兩邊之信號會逐步衰減。亦可利用其他頻率頻寬之分割方法。舉例而言,對於32 kHz抽樣率,可利用一種平均分配的四頻帶結構。
低頻率頻帶通常是語音信號最重要的頻帶,因為信號能量通常朝向較高頻率範圍而減低。相對應地,低頻率頻帶通常利用比其他頻帶更多之位元來編碼。和一種單一頻帶編碼結構相較之下,子頻帶結構更有彈性,及允許對在頻率頻帶上之位元分佈/定量雜訊有較佳之控制。相對應地,具信可利用子頻帶結構顯著改善知覺語音品質。
在第2圖中,可獨立編碼每一種子頻帶,如編碼元件(232、234)所闡明。雖然途中分別顯示頻帶編碼元件(232、234),可由一種單一編碼器來編碼所有頻帶,或可由獨立編碼器編碼之。下文將參照第4圖詳述此種頻帶編碼。或者是,編碼/解碼器可作為一種單一頻帶編碼/解碼器。
可經由一多工器("MUX")(236)將所產生之編碼之語音提供給一或更多種網路連結層(240)。網路連結層(240)可處理編碼之語音以便透過網路(250)傳輸。舉例而言,網路層軟體可將編碼之語音資訊的幀封裝成依循RTP通訊協定之封包,該封包係在利用UD、PIP及各種實體層通訊協定之網際網路上中繼轉發。或者是,可利用其他和/或額外的軟體層或網路連結通訊協定層。網路(250)是一種廣域、以封包交換之網路,例如網際網路。或者是,網路(250)為一區域網路或其他類型之網路。
在解碼器端上,一或更多種網路連結層(260)之軟體可接收並處理傳輸之資料。網路、傳輸、及解碼器端網路連結層(們)(260)中之較高層通訊協定及軟體通常對應於編碼器端網路連結層(們)(240)中者。網路連結層(們)可經由一解多工器("DEMUX")(276)將編碼之語音資訊提供給語音解碼器(270)。解碼器(270)可獨立解碼每一種頻帶,如解碼模組(272、274)中所繪。所有子頻帶可由一種單一解碼器解碼,或其可由獨立頻帶解碼器解碼。
之後可在輸出解碼之語音(292)的一系列一或更多種合成濾波器庫(例如QMF合成濾波器)(280)中合成該解碼之子頻帶。或者是,可利用其他類型之濾波器排列以用於子頻帶合成。若僅存在一種單一頻帶,則該解碼之頻帶可繞過濾波器庫(280)。
解碼之語音輸出(292)亦可通過一或更多種後濾波器(284)以提昇所產生之經濾波之語音輸出(294)的品質。同樣地每一種頻帶在進入濾波器庫(280)之前可獨立通過一或更多種後濾波器。
下文參照第6圖描述一種一般化即時語音頻帶解碼器,但可以其他語音解碼器取而代之。此外,所述之工具及技術中之某些或全部可連同其他類型音訊編碼器及解碼器一起運用,例如音樂編碼器及解碼器,或一般用途音訊編碼器及解碼器。
除了這些主要編碼及解碼功能之外,該元件亦可共享資訊(第2圖中之虛線內所示)以控制編碼之語音的編碼率、品質、和/或損失抗障性。取樣率控制器(220)可考量多種因子例如輸入緩衝器(210)中之現用輸入的複雜性、編碼器(230)或其他地方中輸出緩衝器之緩衝全滿程度、欲用輸出率、現用網路頻寬,網路擁擠/雜訊情形和/或解碼器損失率。解碼器(270)可將解碼器損失率資訊回饋至取樣率控制器(220)。網路連結層(們)(240、260)可收集或估計關於現用網路頻寬及情形資訊,且該資訊可回饋至取樣率控制器(220)。或者是,取樣率控制器(220)可考量其他和/或額外的因素。
取樣率控制器(220)可導引語音編碼器(230)改變和語音一起編碼之取樣率、品質、和/或損失抗障性。編碼器(230)可藉由調整參數之定量因子或改變表示該參數之熵編碼的解析度,來改變取樣率及品質。此外,編碼器可藉由調整取樣率或冗餘編碼類型來改變損失抗障性。因此,編碼器(230)可隨著網路情形改變主編碼功能及損失抗障性功能間之配置。
取樣率控制器(220)可根據多種因素針對每一種幀各自決定編碼模式。前述因子可包括每一種子頻帶之信號特性、位元串流緩衝器歷史、及目標位元率。舉例而言,如上所述’一般而言,較簡單之幀,例如無聲及無聲幀需要較少位元,且較複雜之幀,例如轉移幀需要較多位元。此外,某些頻帶例如高頻率頻帶可能需要較少位元。更有甚者,若位元串流歷史緩衝器中之平均位元率低於目標平均位元率,可針對現用幀使用一較高位元率。若平均位元率少於目標平均位元率,則可針對現用幀選用一種較低位元率以減低平均位元率。此外,可自一或更多種幀省略該頻帶一或更多種。舉例而言,對於無聲幀可省略中及高頻率幀,或可在一段時間中針對所有幀皆將之省略,以減低該時間中之位元率。
第4圖為一種一般化語音頻帶編碼器(400)之一區塊圖,其可連同一或更多種所述之具體實施例實作。頻帶編碼器(400)通常可對應於第2圖中之頻帶編碼元件(232、234)之任一種。
若將信號(如,現用幀)分割成多重頻帶時,頻帶編碼器(400)可自濾波器庫(或其他濾波器)接收頻帶輸入(402)。若並未將現用幀分割成多重頻帶,則頻帶輸入(402)包括可表示完整頻寬之樣本。頻帶編碼器可產生編碼之頻帶輸出(492)。
若將一信號分割成多重頻帶,之後一降低取樣元件(420)能在每一種頻帶上執行降低取樣。作為實施例,若將抽樣率設定為16 kHz且每一幀持續時間為20 ms,則每一幀包括320個樣本。若並未執行降低取樣且將幀分割成第3圖中所示之三頻帶結構,則針對該幀可編碼並解碼三倍之樣本數(如,每頻帶320個樣本,或960個總樣本)。然而,可將每一頻帶降低取樣。舉例而言,可將低頻率頻帶(310)由320個樣本降低取樣成160個樣本,且可將該中頻帶(320)及高頻帶(330)之每一種由320個樣本降低取樣成80個樣本,其中頻帶(310、320、330)可分別延伸頻率範圍的二分之一、四分之一、及二分之一。(在此一實作中,降低取樣(420)之程度會和頻帶(310、320、330)之頻率範圍隨比例而改變。然而,亦可能有其他實作。在稍後的階段中,通常針對較高頻帶會使用較少位元,因為信號能量通常朝向較高頻率範圍減低。)相對應地,此一實施例針對該幀提供了320個將進行編碼及解碼之樣本。
可以理解,即便在此種將每一頻帶降低取樣的情形中,編碼/解碼器可產生比一種單一頻帶編碼/解碼器更高之語音品質輸出,因為其更有彈性。舉例而言,其可更有彈性地控制在一種每一頻帶基礎上定量化雜訊,而非利用和處理完整頻譜時相同之方式。可以不同性質(例如不同數目和/或類型之編碼簿階段,如下所述)來編碼多重頻帶之每一種。可由上述取樣率控制根據數種因子來決定此種性質,包括每一子頻帶之信號特性、位元串流緩衝器歷史及目標位元率。如上所述,通常對於「簡單」幀,例如無聲及無聲幀需要較少位元,且對於「複雜」幀,例如轉移幀需要較多位元。若位元歷史緩衝器中之平均位元率少於目標平均位元率,可針對現用幀運用一種較高位元率。否則,可選擇一種較低位元率以降低平均位元率。在一種子頻帶編碼/解碼器中,可利用此種形式決定每一種頻帶之特性,且相對應地進行編碼,而非以相同形式決定完整頻譜之特性。此外,取樣率控制能藉由省略一或更多種幀之一或更多種較高頻率頻帶,以減低位元率。
LP分析元件(430)可運算線性預測係數(432)。在一種實作中,LP濾波器針對8 kHz輸入利用10種係數,且針對16 kHz輸入利用16種係數,且LP分析元件(430)針對每一種頻帶之每幀可運算一組線性預測係數。或者是,LP分析元件(430)針對每一種頻帶之每幀可運算二組係數,個別用於位在不同位置之兩種視窗,或對每頻帶之每幀運算不同數目之係數。
LPC處理元件(435)可接收並處理線性預測係數(432)。通常LPC處理元件(435)可針對更有效率之定量化及編碼將LPC值轉換成一種不同之表示法。舉例而言,LPC處理元件(435)可將LPC值轉換成一種線性頻譜對表示,且可定量該LSP值(例如藉由向量定量化)並編碼之。可由其他LSP值互相編碼或預測LSP值。可利用各種表示法、定量化技術、及編碼技術來運算LPC值。可利用某些形式來提供LPC值,例如對於封包化及傳輸(連同任何定量化參數及重建所需之其他資訊)表示成編碼之頻帶輸出(492)的部份。為了能接著用於編碼器中,LPC處理元件(435)可重建LPC值。LPC處理元件(435)可對LPC值進行內插(例如均等地內插於LSP表示法或另一種表示法中),以平滑LPC係數之不同組間、或用於幀之不同子幀的LPC係數間之轉移。
合成(或「短期預測」)濾波器(440)可接收重建之LPC值(438)及將之納入至濾波器中。合成濾波器(440)接收一激勵信號並產生原始信號之一種近似。在預測的一開始,對於一指定幀,合成濾波器(440)可由上一幀緩衝多種重建之樣本(如,對於一種十種傳送之濾波器有10個樣本)。
感知加權元件(450、455)可將感知加權套用至原始信號及合成濾波器(440)之模型化輸出,以便選擇性地反加重語音信號之共振峰結構以使得聽覺系統對於定量化錯誤較不敏感。感知加權元件(450、455)可利用心理聲學現象例如屏蔽。在一種實作中,感知加權元件(450、455)可根據由LP分析元件(430)接收之原始LPC值(432)套用加權。或者是,感知加權元件(450、455)可套用其他額外的加權。
在感知加權元件(450、455)之後,編碼器(400)可運算感知加權之原始信號及合成濾波器(440)之感知加權輸出之間的差異,以產生一種差異信號(434)。或者是,編碼器(400)可利用一不同技術以運算語音參數。
激勵參數化元件(460)可利用最小化感知加權之原始信號及合成信號(根據加權均方差或其他準則)間之差異,找尋通應性編碼簿索引、固定編碼簿索引及增益編碼簿索引之最佳組合。針對每一子幀可運算多種參數,但在更一般的情形中,參數可以是每一超幀、幀、或子幀。如上所述’一幀或子幀之不同頻帶的參數可以不同。表2顯示在一種實作中,不同幀類別之可用類型參數。
在第4圖中,激勵參數化元件(460)將幀分割成子幀並計算編碼簿索引且適當增益每一種子幀。舉例而言,可由一編碼模式初始決定欲使用之編碼簿階段數目與種類,及編碼簿索引之解析度,其中該可利用上述取樣率控制元件來指定模式.一特定模式亦可指定除了編碼簿階段數目與類型以外之其他編碼及解碼參數,舉例而言,編碼簿索引之解析度。可藉由最佳化該參數來決定每一種編碼簿階段之參數,以便將一目標信號以及編碼簿階段對該合成之信號的貢獻之間的差異最小化。(在此處「最小化」一詞係指在可用限制下找尋一種適當的解決方案,例如失真縮減、參數搜尋時間、參數搜尋複雜性、位元率參數等,相對於執行在參數空間上執行一搜尋。相似地,「最小化」一詞應理解成在可用限制下找尋一種適當的解決方案。)舉例而言,可利用一種修改之均方差技術達成最佳化。每一階段之目標信號為殘餘信號以及上一編碼簿階段之貢獻的總和,如果有的話,和合成之信號兩者間之差異。或者是,可利用其他最佳化技術。
第5圖顯示根據一實作用於決定編碼簿參數之一種技術。激勵參數化元件(460)可能連同其他元件例如一率控制器以執行該技術。或者是,一編碼器中之另一種元件執行技術。參照第5圖,對於一有聲或轉移幀中之每一子幀,激勵參數化元件(460)可決定(510)一適應性是否可用於現用子幀。(舉例而言,取樣率控制可指定適應性針對一特定幀不會使用適應性編碼簿。)若不會使用適應性編碼簿,則一適應性編碼簿轉換可指示不會使用適應性編碼簿(535)。舉例而言,欲完成前述動作,可藉由在該幀層級設定可指示在該幀中不會使用適應性編碼簿的一種1位元旗標,其可藉由在該幀指明一種特定編碼模式或針對每一子幀設定一種1位元旗標,以指示該子幀並未使用適應性編碼簿。
舉例而言,取樣率控制元件可排除一幀之適應性編碼簿,因而可移除幀間最顯著的記憶體相依性。特別是針對有聲幀,一典型激勵信號之特徵為一種週期性樣式。適應性編碼簿包括一種索引可表示一滯後其能指示激勵之一段在歷史緩衝器中之位置的。將上一激勵之段縮分成為適合該激勵信號之貢獻。在解碼器,適應性資訊通常在重建激勵信號中扮演相當重要的角色。若失落上一幀且該適應性編碼簿索引指回上一幀之一段,則適應性編碼簿索引通常沒有用,因為其指向不存在的歷史資訊。即便若執行隱藏技術以恢復此一損失之資訊,未來的重建亦會以該未完整恢復之信號為基礎。這會使得錯誤持續出現在後續幀中,因為滯後資訊通常很敏感。
相對應地,一後續適應性編碼簿依賴之一種封包的損失能導致會延長之退化且僅在已解碼多種封包後或當遇見不具有一種適應性編碼簿之一幀時才會逐漸減弱。可藉由將稱為「內部幀」有規律地插入不具有幀間記憶體相依性之封包串流內,以減輕此一問題。因此,僅當出現下一內部幀時才會傳波該錯誤。相對應地,在較佳語音品質及較佳封包損失效能間必須進行折衷,因為適應性編碼簿之編碼效率通常高於固定編碼簿之編碼效率。取樣率控制元件能決定何時應禁止一特定幀之適應性編碼簿較為有益。可利用適應性編碼簿切換來防止對一特定幀利用適應性編碼簿,因而排除通常為對上一幀之相依性最顯著相關之因素(LPC內插及合成濾波器記憶亦可在某種程度上依賴上一幀)。因此,取樣率控制元件可根據因子如封包損失率而動態地利用適應性編碼簿切換以建立一種準內部幀(即,當封包損失率高時,可插入更多內部幀以允許較快之記憶體重置)。
同樣參照第5圖,若可利用一適應性編碼簿,則元件(460)可決定適應性編碼簿參數。這些參數包括一索引、或間距值,其可指示激勵信號歷史之一種所想段,以及套用至所想段之一種增益。在第4及5圖中,元件(460)執行一種封閉迴圈間距搜尋(520)。此種搜尋一開始由第4圖中之選用開放迴圈間距搜尋元件(425)決定該間距。一開放迴圈間距搜尋元件(425)分析加權元件(450)產生之加權信號以估計其間距。由此種估計之間距開始,封閉迴圈間距搜尋(520)最佳化該間距值以降低目標信號及由激勵信號歷史之一種指示段產生的加權合成之信號間之錯誤。亦將適應性編碼簿增益值最佳化(525)。適應性編碼簿增益值指示可將一乘數套用至間距預測之數值(來自激勵信號歷史之指示之段的數值),以調整該數值之縮放。增益乘以由間距預測之數值為現用幀或子幀之激勵信號的適應性編碼簿貢獻。增益最佳化(525)可產生一增益值及一索引值以最小化目標信號及來自適應性編碼簿貢獻之加權合成之信號間的錯誤。
當決定間距及增益值之後,接著可決定(530)適應性編碼簿貢獻是否足以匹配適應性編碼簿參數所用之位元數。若適應性編碼簿增益小於一閾值,可關閉適應性編碼簿以儲存下述固定編碼簿之位元。在一種實作中,所用之閾值為0.3,雖然亦可利用其他閾值來替代。作為實施例,若現用編碼模式可利用適應性編碼簿加上具有五個脈衝的一種脈衝編碼簿,則當關閉適應性編碼簿時,可利用一種七個脈衝之編碼簿,及位元總數仍然相等或較少。如上所述,可對每一種子幀利用一種1位元旗標以指示該子幀之適應性編碼簿切換。因此,若並未使用適應性編碼簿,可設定該切換以指示並未在該子幀中使用適應性編碼簿(535)。相似地,若使用適應性編碼簿,可設定該切換以指示在該子幀中運用了適應性編碼簿且在位元串流中可發出適應性編碼簿參數之信號(540)。雖然第5圖顯示在決定後之信號化,在另一種情形中,直到完成一幀或超幀後才會將信號批次處理。
激勵參數化元件(460)亦可決定(550)是否使用一脈衝編碼簿。在一種實作中,可將使用脈衝編碼簿與否指示成現用幀之一種整體編碼模式之部份,或可以其他方法來指示或決定.一脈衝編碼簿是固定編碼簿的一種,其可指明可貢獻給該激勵信號之一或更多種脈衝。脈衝編碼簿參數包括成對的編碼簿索引及標號(增益可以是正號或負號)。每一對可指示將包括於激勵信號中之一脈衝,連同可指示脈衝之位置的索引,且該標號可指示脈衝之極性。包括於脈衝編碼簿中以及用以貢獻給激勵信號之脈衝數目可隨著編碼模式而不同。此外,脈衝之數目可隨著使否利用一適應性編碼簿而不同。
若使用了脈衝編碼簿,則可將脈衝編碼簿參數最佳化(555)以最小化所指示之脈衝的貢獻和一目標信號間之錯誤。若並未使用一適應性編碼簿,則目標信號即為加權原始信號。若使用一適應性編碼簿,則目標信號為加權原始信號和適應性編碼簿對加權合成之信號的貢獻之間的差異。在某些時候(此處未顯示),之後可將脈衝編碼簿參數在位元串流中信號化。
激勵參數化元件(460)亦可決定(565)是否欲使用任何隨機之固定編碼簿階段。可將隨機編碼簿階段之數目(如果有的話)指示成現用幀之一種總體編碼模式的部份,雖然可以其他方式來指示或決定.一隨機編碼簿是固定編碼不支一種,其可針對其編碼之數值運用一種預先定義的信號模型。該編碼簿參數可包括用於信號模型之一種指示之段的起始點,其標號可以是正號或負號。該指示之段的長度或範圍通常是固定的,且因而通常不會信號化,但在另一種情形中,可將該指示之段的一種長度或範圍信號化。利用指示之段中的數值乘以一增益以產生隨機編碼簿對激勵信號之貢獻。
若使用至少一種隨機編碼簿階段,則將該編碼簿階段之編碼簿階段參數最佳化(570)以最小化隨機編碼簿階段之貢獻及一目標信號間之錯誤。目標信號為加權原始信號以及對適應性編碼簿之加權合成信號之貢獻的總和(如果有的話)、脈衝編碼簿(如果有的話)、及先前決定之隨機編碼簿階段(如果有的話)之間的差異。在某些時候(此處未顯示),之後可將隨機編碼簿參數在位元串流中信號化。
之後元件(460)可決定(580)是否欲使用任何更多的隨機編碼簿階段。若為肯定,則下一隨機編碼簿階段之參數最佳化(570)並如上所述將之信號化。這會一直持續直到已決定了隨機編碼簿階段之所有參數為止。所有的隨機編碼簿階段能利用相同的信號模型,雖然他們可能指示來自模型之不同段且擁有不同增益值。或者是,可對不同隨機編碼簿階段利用不同信號模型。
可由取樣率控制器和/或其他元件將每一種激勵增益獨立定量或將二或更多種增益一起定量。
雖然此處以一種特定順序來描述將各種參數最佳化,亦可利用其他順序及最佳化技術。因此,雖然第5圖顯示不同編碼簿參數之依序運算,在另一種情形中,可同時將二或更多種不同編碼簿參數最佳化(如,藉由同時改變該參數並根據根據某些非線性最佳化技術來評估結果)。此外,其他可以使用其他編碼簿組態或其他激勵信號參數。
在本實作中,激勵信號是適應性編碼簿、脈衝編碼簿、隨機編碼簿階段(們)之任何貢獻的總和。或者是,元件(460)可運算激勵信號之其他和/或額外的參數。
參照第4圖,將激勵信號之編碼簿參數信號化或以其他方式提供給一種本機解碼器(465)(第4圖中以虛線環繞)以及提供給頻帶輸出(492)。因此,對於每一種頻帶,編碼器輸出(492)包括上述來自LPC處理元件(435)之輸出,以及來自激勵參數化元件(460)之輸出。
輸出(492)之位元率部份依賴編碼簿所用之參數,且編碼器(400)可藉由利用內嵌編碼或其他技術在不同組的編碼簿索引中切換以控制位元率和/或品質。不同編碼簿類型及階段之組合能夠針對不同幀、頻帶和/或子幀產生不同編碼模式。舉例而言,一無聲僅可利用一隨機編碼簿階段.一適應性編碼簿及一脈衝可用於一低取樣率有聲幀.一高取樣率幀可一適應性編碼簿、一脈衝編碼簿、及一或更多種隨機編碼簿階段來進行編碼。在一幀中,用於所有子頻帶之編碼模式的組合可總稱為一種模式組。可針對每一種抽樣率預先定義數種模式組,且不同模式和不同編碼位元率相對應。取樣率控制模組能決定或影響每一幀之模式組。
對於所述之實作之可能位元率之範圍可能非常大,且能顯著提昇所產生之品質。在標準編碼器中,用於一脈衝編碼簿之位元數目可以不同,但過多位元數可能僅會產生過於密集的脈衝。相似地,當僅使用一種單一編碼簿時,加入更多位元使得能利用一種較大的信號模型。然而,這會顯數增搜尋模型之最佳段的複雜性。相對地,可加入額外的編碼簿類型及額外的隨機編碼簿階段而不會顯著增加個別搜尋之複雜度(和搜尋一種單一、組合編碼簿相比)。更有甚者,多重隨機編碼簿階段及多種類型之固定編碼簿使得可用多重增益因子,這在波形比對時,提供了更高的彈性。
參照第4圖,重建元件(470、472、474、476)及對應參數化元件(460)之編碼簿的增益應用元件(480、482、484、486)可接收激勵參數化元件(460)之輸出。編碼簿階段(470、472、474、476)及相對應之增益應用元件(480、482、484、486)可重建編碼簿之貢獻。將這些貢獻家總可產生一種激勵信號,當合成濾波器接收前述激勵信號後,在該處可將之和「預測之」樣本一起運用,以便由其進行後續線性預測。適應性編碼簿重建元件(470)亦可利用激勵信號之延遲部份作為一激勵歷史信號以重建後續適應性編碼簿參數(如,間距貢獻),且可供參數化元件(460)用於運算後續適應性編碼簿參數(如,間距索引及間距增益值)。
回頭參照第2圖,MUX(236)可連同其他參數一起接收每一種頻帶之頻帶輸出。此種其他參數能包括,除了其他資訊之外,來自幀分類器(214)之類別資訊(222)、及幀編碼模式。MUX(236)可建構應用程式層封包以傳遞給其他軟體,或MUX(236)可將資料置於遵循一通訊協定如RTP之封包的付載中。該MUX可緩衝參數以便允許參數之選擇性重複以便在之後的封包中轉送錯誤更正。在一種實作中,MUX(236)可將一幀之主編碼之語音資訊連同用於一或更多種上一幀的全部或部份的轉送之錯誤更正資訊封裝至一種單一封包中。
MUX(236)可基於取樣率控制之目的提供回饋例如現用緩衝器全滿程度。更一般來說,編碼器(230)之各種元件(包括幀分類器(214)及MUX(236))可提供資訊給一取樣率控制器(220)例如第2圖中所示者。
第2圖之位元串流DEMUX(276)可接收編碼之語音資訊作為輸入並剖析之以識別並處理參數。該參數可包括幀類別、LPC值之某些表示法、編碼簿及參數。幀類別可指示針對一指定幀可提出何種其他參數。更一般來說,DEMUX(276)可利用編碼器(230)所用之通訊協定並萃取該編碼器(230)封裝至封包中之參數。對於經由一種動態封包切換網路接收之封包,DEMUX(276)包括一抖動緩衝器以平滑在一指定時其中封包率之短期波動。在某些情形中,當自緩衝器讀取封包時,解碼器(270)可調控緩衝延遲並管理之,以便將延遲、品質控制、失落幀隱藏等整合至解碼中。在其他情形中,一應用程式層元件可管理該抖動緩衝器,且在可變取樣率下可填滿一種抖動緩衝器並由解碼器(270)在一種恆定或相對恆定之取樣率下將之清空。
DEMUX(276)可接收一指定段之多重版本參數,包括一主編碼之版本及一或更多種二級錯誤更正版本。當錯誤更正失敗時,解碼器(270)可利用隱藏技術例如參數重複或根據正確地接收之資訊進行估計。
第6圖是一種一般化即時語音頻帶解碼器(600)之一區塊圖,其可連同一或更多種所述之具體實施例實作。頻帶解碼器(600)一般可對應至第2圖之頻帶解碼元件(272、274)的任一種。
頻帶解碼器(600)可接收一頻帶(其可以是完整頻帶、或多重子頻帶之一)之編碼之語音資訊(692)作為輸入並在解碼後產生一種重建之輸出(602)。解碼器(600)之元件和編碼器中之元件相對應,但整體而言,解碼器(600)較為簡單,因為其欠缺用於感知加權、激勵處理迴圈及樣本率控制之元件。
LPC處理元件(635)可接收以頻帶編碼器(400)(以及任何定量化參數及重建所需之其他資訊)提供之形式表示的LPC值之資訊。LPC處理元件(635)可利用轉換、定量化、編碼等先前套用至LPC值之反向技術來重建LPC值(638)。LPC處理元件(635)亦可對LPC值(以LPC表示法或另一種表示法,如LSP)進行內插以平滑不同組LPC係數間之轉移。
編碼簿階段(670、672、674、676)及增益應用元件(680、682、684、686)可解碼用於激勵信號之任何一種相對應之編碼簿階段之參數並運算所用之每一種編碼簿階段的貢獻。更一般來說,編碼簿階段(670、672、674、676)及增益元件(680、682、684、686)之組態與作業係對應於編碼器(400)中之編碼簿階段(470、472、474、476)及增益元件(480、482、484、486)的組態與作業。將所用之編碼簿階段的貢獻家總,且將所產生之激勵信號(690)回饋至合成濾波器(640)中。在運算時用於激勵信號之後續部份的適應性編碼簿之貢獻時,適應性編碼簿(670)亦可利用激勵信號(690)之延遲值作為一種激勵歷史。
合成濾波器(640)可接收重建之LPC值(638)並將之整合至濾波器中。合成濾波器(640)可儲存先前重建之樣本以供處理。激勵信號(690)通過合成濾波器以形成原始語音信號之一種近似。回頭參照第2圖,如上所述,若有多重子頻帶時,在濾波器庫(280)中合成每一種子頻帶之子頻帶輸出以便形成語音輸出(292)。
第2至6圖中所示之關係指出了一般性的資訊流程;為求簡潔,此處未顯示其他關係。隨著實作及期望之壓縮類型不同,可增加、略過元件、將之分割成多重元件、其他元件結合、以相似元件取代之。舉例而言,在第2圖所示之環境(200)中,可將取樣率控制器(220)和語音編碼器(230)結合。可能加入之元件包括一多媒體編碼(或播放)應用程式其可管理該語音編碼器(或解碼器)以及其他編碼器(或解碼器)並收集網路及解碼器情形資訊,且其可執行適應性錯誤更正功能。在替代性具體實施例中,可利用運用此處所述技術之元件處理語音資訊的不同組態與組合。
三、冗餘技術
語音編碼/解碼器的一種可能用途是用於VoIP網路或其他封包切換之網路。此種網路相較於既有電路切換基礎建設具有某些優點。然而,在透過網路傳輸語音時,封包通常會因為網路擁塞而導致延遲或漏失。
許多標準語音編碼/解碼器擁有高度幀間相依性。因此,對於這些編碼/解碼器而言,一損失之幀可導致在許多後續幀中嚴重的語音品質衰退。
在其他編碼/解碼器中,可獨立解碼每一幀。此種編碼/解碼器較不易受封包損失之影響。然而就品質及位元率而言,其編碼效率會因為不允許幀間相依性而顯著下降。因此,此種編碼/解碼器通常需要較高位元率以得到近似傳統CELP編碼器之語音品質。
在某些具體實施例中,下述冗餘編碼技術可在不會顯著提高位元率的情形下有助於產生良好的封包損失恢復效能。在一種單一編碼/解碼器中可一起運用該技術,或其可獨立運用。在上述參照第2及4圖所述之編碼器實作中,適應性編碼簿資訊通常是對其他幀之相依性的主要來源。如上所述,適應性編碼簿索引可指示歷史緩衝器中之激勵信號的一段之位置。將上一激勵信號之該段縮放(根據一增益值)以成為現用幀(或子幀)激勵信號之適應性編碼簿貢獻。若含有用以重建該編碼之上一激勵信號的資訊之一種上一封包失落時,則此一現用幀(或子幀)滯後資訊就沒有用了,因為其指向不存在之歷史資訊。因為滯後資訊很敏感,這通常會導致所產生之語音輸出額外的衰退,直到已經解碼許多封包才會逐漸減退。
設計下列技術以便至少在某種程度上移除因為已經延遲或失落而導致不可用之現用激勵信號對於由上一幀重建之資訊的相依性。
一編碼器例如參照第2圖之上述編碼器(230)可在下列以每一幀為基礎或某些其他基礎之一種編碼技術間切換一相對應之解碼器例如參照第2圖之上述解碼器(270)可在以每一幀為基礎或某些其他基礎之相對應技術間切換。或者是,可由另一種編碼器、解碼器、或音訊處理工具來執行一或更多種下列技術。
A.主適應性編碼簿歷史重新編碼/解碼
在主適應性編碼簿歷史重新編碼/解碼中,不會利用激勵歷史緩衝器來解碼現用幀之激勵信號,即便該解碼器中有可用之激勵歷史緩衝器(已接收之上一幀封包、已解碼之上一幀等)。反而是在該編碼器,會分析間距資訊給現用幀以決定需要多少激勵歷史。將激勵歷史中必要之部份重新編碼並和編碼之資訊(如,濾波器參數、編碼簿索引及增益)一起傳送給現用幀。現用幀之適應性編碼簿貢獻可參考和現用幀一起傳送的該重新編碼之激勵信號。因此’可保證該關聯激勵歷史可供解碼器用於每一種幀。若現用幀並未使用一通應性編碼簿,例如一無聲幀,則此種冗餘編碼並非必須。
可經由現用幀編碼來完成激勵歷史之參照之部份的重新編碼,且可利用和上述編碼一現用幀之激勵信號相同方式來進行。
在某些實作中,以一種每一幀為基礎來編碼激勵信號,且重新編碼之激勵信號段可由包括現用子幀之現用幀延伸回到超越現用幀之最遠的適應性編碼簿相依性之該幀的界限。因此,重新編碼之激勵信號可供該幀中之多重子幀作為間距資訊之參考。或者是,能夠以某些其他基礎,例如每一幀,來編碼激勵信號。
第7圖中闡明一實施例,其描繪一種激勵歷史(710)。分別以較大和較小的虛線來表示幀界限(720)及子幀界限(730)。利用一適應性編碼簿來編碼一現用幀(740)之子幀。由線條來描繪對於現用幀之一子幀之任何適應性編碼簿滯後索引最遠的相依性(750)。相對應地,該重新編碼之歷史(760)由現用幀之開頭延伸回到超過該最遠之點(750)的下一種子幀界限。可利用上述開放迴圈間距搜尋(425)來估計相依性最遠的一點。因為該搜尋冰非完全精確,然而,適應性編碼簿可能會依賴超過所估計之最遠點的激勵信號之某些部份,除非限制了稍後的間距搜尋。相對應地,重新編碼之歷史可包括超過估計之相依性最遠點之額外的樣本,以便提出額外的空間以供尋找匹配之間距資訊。在一種實作中,在重新編碼之歷史中至少包括十種超過相依性最遠點的額外的樣本。當然,可包括超過十種樣本,以便增加重新編碼之歷史延伸程度夠遠而能包括和現用子幀之間距循環相匹配者的可能性。
或者是,僅當實際在現用幀中之子幀中參照先前激勵信號之段(們)時,才會將之重新編碼。舉例而言,將具有適當持續時間的一段先前激勵信號重新編碼,以用於解碼該持續時間的一種單一現用段。
主適應性編碼簿歷史重新編碼/解碼排除了對先前幀之激勵歷史的相依性。同時,其使得能夠使用適應性編碼簿且不需要將整個上一幀(們)(甚或上一幀(們)之完整激勵歷史)重新編碼。然而,重新編碼適應性編碼簿記憶體相對於下述技術而言,前者所需之位元率相當高,特別是當該重新編碼之歷史係用於以和具有幀間相依性之編碼/解碼相同品質程度之主編碼/解碼時。
主適應性編碼簿歷史重新編碼/解碼之副產物之一是可利用重新編碼之激勵信號以以恢復上一種損失之幀的激勵信號之至少部份。舉例而言,在解碼一現用幀之子幀的過程中可重建重新編碼之激勵信號,且將重新編碼/解碼之之激勵信號輸入至利用實際或估計濾波器係數建構之一種LPC合成濾波器中。
可將所產生之重建輸出信號視為上一幀輸出之部份來運用。此種技術亦有助於估計用於現用幀之合成濾波器記憶的一種初始狀態。利用該重新編碼之激勵歷史及估計之合成濾波器記憶,能夠以和正常編碼一樣的方式產生現用幀之輸出。
B.次級適應性編碼簿歷史重新編碼/解碼
在次級適應性編碼簿歷史重新編碼/解碼中,不會改變現用幀之主適應性編碼簿編碼。相似地,現用幀之主解碼不會改變如果接收到上一幀,其可利用上一幀之激勵歷史。
若在未重建先前激勵歷史時欲使用之,可將激勵歷史緩衝器以大致上和上述主適應性編碼簿歷史重新編碼/解碼技術相同之方式重新編碼。然而,相較於主重新編碼/解碼,重新編碼所用之位元較少,因為當沒有封包失落時,語音品質不會受到重新編碼之信號的影響。可藉由改變各種參數來減低用於重新編碼激勵歷史之位元數目,例如利用較少之固定編碼簿階段、或利用脈衝編碼簿中較少之脈衝。
當上一幀失落時,可在解碼器中利用重新編碼之激勵歷史以產生用於現用幀之適應性編碼簿激勵信號。亦可利用重新編碼之激勵歷史以恢復上一損失之幀的至少部份激勵信號,如同主適應性編碼簿歷史重新編碼/解碼技術中之方法。
同樣地,可將所產生之重建輸出信號視為上一幀輸出來運用。此一技術亦有助於估計用於現用幀之合成濾波器記憶之初始狀態。利用重新編碼之激勵歷史及估計之合成濾波器記憶,能夠以和正常解碼相同之方式產生現用幀之輸出。
C.額外編碼簿階段
和次級適應性編碼簿歷史重新編碼/解碼技術中相同,在額外編碼簿階段技術中,主激勵信號編碼和參照第2至5圖之上述正常編碼相同。然而,亦可決定一額外編碼簿階段之參數。
在此種編碼技術中,如第8圖中所闡明,係假設(810)上一激勵歷史緩衝器在現用幀之開頭皆為0is a,且因而沒有來自上一激勵歷史緩衝器之貢獻。除了現用幀之主編碼資訊之外,可針對使用一適應性編碼簿之每一種子幀或其他段利用一或更多種額外編碼簿階段(們)。舉例而言,額外編碼簿階段可利用一隨機之固定編碼簿,例如參照第4圖所述者。
在此技術中,正常地編碼一現用幀以產生若當上一幀不可用時,欲供解碼器使用之主編碼資訊(其能包括主編碼簿階段之主編碼簿參數)。在編碼器端,可在封閉迴圈中決定一或更多種額外編碼簿階段之冗餘參數,假設沒有來自上一幀之激勵資訊。在一第一種實作中,不需利用任何主編碼簿參數即可完成該決定。或者是,在一第二種實作中,可利用現用幀之至少某些主編碼簿參數。若上一幀失落時,可將該主編碼簿參數連同額外編碼簿參數(們)一起使用,以解碼現用幀,如下所述.一般而言,此一第二種實作能達成和第一種實作相似之品質且關於額外編碼簿階段(們)所需之位元較少。
根據第8圖,在一編碼器迴圈搜尋中,可將額外編碼簿階段之增益以及最後存在之脈衝或隨機編碼簿的增益一起最佳化,以最小化編碼錯誤。在此一最佳化中,可保留並利用正常編碼過程中產生之大多數參。在最佳化中,可決定(820)在正常編碼中是否使用任何隨機或脈衝編碼簿階段。若為肯定,則可將最後存在之隨機或脈衝編碼簿階段(例如第4圖中之隨機編碼簿階段n)的一種修訂之增益最佳化(830)以最小化該編碼簿階段之貢獻及一目標信號間之錯誤。此一最佳化之目標信號為殘餘信號和任何先前隨機編碼簿階段之貢獻的總和(如,所有先前編碼簿階段,但將來自上一幀之段的適應性編碼簿貢獻設定為0)間之差異。
可利用相似方法將額外隨機編碼簿階段之索引及增益參數最佳化(840)以最小化該編碼簿之貢獻和一目標信號間之錯誤。該額外隨機編碼簿階段之目標信號為殘餘信號以及適應性編碼簿、脈衝編碼簿(如果有的話)及任何正常隨機編碼簿(其最後存在之正常隨機或脈衝編碼簿擁有該修訂之增益)之貢獻的總和間的差異。可分別或一起最佳化最後存在之正常隨機或脈衝編碼簿之修訂之增益以及額外隨機編碼簿階段之增益。
當處於正常解碼模式時,解碼器不會利用額外隨機編碼簿階段,且會根據上述(舉例而言,如第6圖中)解碼一信號。
第9A圖闡明一子頻帶解碼器,當一適應性編碼簿索引指向已經失落的上一幀之一段時,其可利用一額外編碼簿階段。其架構一般而言和上文於第6圖中所述並闡明之架構相同,且第9圖之子頻帶解碼器(900)中之多種元件及信號的功能和第6圖中相對應之元件及信號相同。舉例而言,可接收編碼之子頻帶資訊(992),且LPC處理元件(935)可利用該資訊重建線性預測係數(938)並將該係數回饋至合成濾波器(940)。然而,當上一幀失落時,一重置元件(996)可將一種零歷史元件(994)信號化以便將該失落幀之激勵歷史設定為零,並將該歷史回饋至適應性編碼簿(970)。可將增益(980)套用至適應性編碼簿之貢獻。因此,當其索引指向失落幀之歷史緩衝器時,適應性編碼簿(970)之貢獻為零,但當其索引指向現用幀之內的一段時,其可擁有某些非零之貢獻。固定之編碼簿階段(972、974、976)可套用其連同子頻帶資訊(992)一起接收之正常編碼簿索引。相似地,固定之編碼增益元件(982、984)期待最後正常編碼簿增益元件套用其正常增益以產生其對激勵信號(990)之個別貢獻。
若一額外隨機編碼簿階段(988)為可用,且上一幀失落時,則重置元件(996)可將一切換(998)信號化以傳送該最後正常編碼簿階段(976)之貢獻連同欲和其他編碼簿貢獻一起加總之一種修訂之增益(987),而非傳送最後正常編碼簿階段(976)之貢獻連同欲加總之正常增益(986)。在將上一幀之激勵歷史設定為零之情形中,將修訂之增益最佳化。此外,額外編碼簿階段(978)可套用其索引以便在相對應之編碼簿中指示在隨機編碼簿模型信號中之一段,且隨機增益元件(988)可將額外隨機編碼簿階段之增益套用至該段。切換(998)可傳送所產生之額外編碼簿階段貢獻以便和上一編碼簿階段(970,972、974、976)之貢獻加總,以產生激勵信號(990)。相對應地,額外隨機編碼簿階段之冗餘資訊(例如額外編碼簿階段索引及增益)及最後主隨機編碼簿階段之修訂之增益(用於代替最後主隨機編碼簿階段之正常增益)可用於快速將現用幀重置成為一種已知狀態。或者是,可將正常增益用於最後主隨機編碼簿階段和/或某些用以信號化一額外階段隨機編碼簿之其他參數。
額外編碼簿階段技術需要的位元很少,以致於供其使用之位元率損失通常不顯著。另一方面,其能顯著減低當存在幀間相依性時因幀損失造成之品質減退。
第9B圖闡明類似第9A圖中所述之一種子頻帶解碼器,但其欠缺正常隨機編碼簿階段。因此,在本實作中,當將一種上一失落幀之殘餘歷史設定為零時,將修訂之增益(987)最佳化給脈衝編碼簿(972)。相對應地,當一幀失落時,將適應性編碼簿(970)(連同將上一失落幀之殘餘歷史設定為零)之貢獻、脈衝編碼簿(972)(連同修訂之增益)、及額外隨機編碼簿階段(978)加總以產生激勵信號(990)。
當將一失落幀之殘餘歷史設定為零時,最佳化之一種額外編碼簿階段可和多種不同實作以及編碼簿和/或殘餘信號之其他組合一起運用。
D.冗餘編碼技術間之折衷
上述三種冗餘編碼技術之每一種和其他技術相較互有優缺點。表3顯示在這三種冗餘編碼技術間某些一般化的公認折衷。位元率損失係指運用該技術所需之位元數量。舉例而言,假設利用和正常編碼/解碼技術中相同之位元率,在正常解碼過程中,一種較高的位元率損失通常會對應至較低品質,因為將較多位元用於冗餘編碼,且因此可利用較少位元來進行正常編碼資訊。減低記憶體相依性之效率係指當失落一或更多種上一幀時,改進所產生之語音輸出的品質之效率。恢復上一幀(們)之有效性係指當上一幀(們)失落時,利用冗餘編碼之資訊以恢復一或更多種上一幀之能力。表中之結論為一般性之結論,且可能不適用於特定實作中。
在編碼過程中,編碼器能對高速旋轉之任何幀選擇任何一種冗餘編碼。對於某些類別之幀可能完全不能使用冗餘編碼(如,可用於有聲幀、不可用於靜音或無聲幀),且若使用之,其可用於每一種幀之上、在一種週期性基礎上例如每十幀、或在某些其他基礎上。可由一種元件來控制之,例如取樣率控制元件,可考量因子例如上述折衷、可用頻道頻寬、及關於封包損失狀態之解碼器回饋。
E.冗餘編碼位元串流格式
可在一位元串流中將冗餘編碼資訊以各種不同格式傳送。下文為一實作,闡明傳送上述冗餘編碼資訊並將其存在信號化至一解碼器。在本實作中,位元串流之每一種幀以一種稱為幀類型之2位元欄位稱作為開頭。該幀類型可用於識別其後之位元的冗餘編碼模式,且其亦可用於編碼及解碼中之其他目的。表4提出該幀類型欄位之冗餘編碼模式意義。
第10圖闡明位於位元串流幀格式中之這些編碼的四種不同組合,該格式可信號化一正常幀之存在和/或個別冗餘編碼類型。對於包括該幀之主編碼資訊而欠缺任何冗餘編碼位元之一種正常幀(1010),在該幀之開頭為一種位元組界限(1015)之後接著是幀類型編碼00。該幀類型編碼之後接著是一正常幀之主編碼資訊。
對於具有主適應性編碼簿歷史冗餘編碼資訊之一幀(1020),在該幀之開頭為一種位元組界限(1025)之後接著是幀類型編碼10,其可信號化該幀之主適應性編碼簿歷史資訊之存在。該幀類型編碼之後接著是具有主編碼資訊及適應性編碼簿歷史資訊之一幀的一種編碼單元。
當一幀中包括次級歷史冗餘編碼資訊時,該幀之開頭為一種位元組界限(1035)之後接著是一種編碼單元,該單元包括一幀類型編碼00(一正常幀之編碼)其後是一正常幀之主編碼資訊。然而,在主編碼資訊結尾之位元組界限(1045)之後接著是另一種編碼單元,該單元包括一幀類型編碼11其指示後面會接著選用次級歷史資訊(1040)(而非一幀之主編碼資訊)。因為僅當上一幀失落時才會使用次級歷史資訊(1040),一封包化器或其他元件可指定省略該資訊之選項。要這麼做可能基於各種理由,例如當需要降低總體位元率時、封包損失率低時、或上一幀包括於具有現用幀之一封包中時。或者,當正常接收到正常幀(1030)時,一解多工器或其他元件可指定跳過次級歷史資訊之選項。
相似地,當額外編碼簿階段冗餘編碼資訊包括於一幀(1050)時,在一編碼單元開頭之位元組界限(1055)之後街著一幀類型編碼00(一正常幀之編碼)其後接著是一正常幀之主編碼資訊。然而,在主編碼資訊之結尾接著是位元組界限(1065),之後接著是另一種編碼單元包括一幀類型編碼01,其可指示選用額外編碼簿階段資訊(1060)。至於次級歷史資訊,僅當上一幀失落時才會使用額外編碼簿階段資訊(1060)。相對應地,至於次級歷史資訊,可將一封包化器或其他元件指定省略額外編碼簿階段資訊之選項,或可將一解多工器或其他元件指定跳過額外編碼簿階段資訊之選項。
一應用程式(如,一應用程式處置傳輸層封包化)可決定將多重幀組合在一起以形成一種較大封包,以減低封包標頭所需之額外位元。在封包中,應用程式可藉由掃描位元串流來決定幀界限。
第11圖闡明具有四幀(1110、1120、1130、1140)之一種單一封包(1110)的一種可能位元串流。可以假設,若接收到單一封包中之任一幀時,可接收其中之所有幀(即,沒有部份資料損毀),且該適應性編碼簿或間距通常小於幀長度。在本實施例中,通常不會使用幀2(1120)、幀3(1130)、及幀4(1140)之任何選用冗餘編碼資訊,因為若現用幀存在時,上一幀通常永會存在。相對應地,可以移除在封包(1110)中除了第一幀以外之所有幀的選用冗餘編碼資訊。這會產生壓縮之封包(1150),且其中幀1(1160)包括選用額外編碼簿階段資訊,但剩餘幀(1170、1180、1190)中之所有選用冗餘編碼皆以移除。
若編碼器正在利用主歷史冗餘編碼技術,當將幀封裝成一種單一封包時,一應用程式不會消去任何此種位元,因為不論上一幀是否失落,皆會使用主歷史冗餘編碼資訊。然而,若應用程式知道該幀將位於一種多幀封包中時,其可迫使編碼器將此幀編碼成一種正常幀,且其不會成為此一封包中之第一幀。
雖然第10及11圖以及附隨的敘述闡明了幀及資訊類型間位元組對齊之界限,或者是該界限並非位元組對齊的。更有甚者,第10及11圖以及附隨的敘述闡明了示範性幀類型編碼以及幀類型之組合。或者是,一編碼器及解碼器可利用其他其他和/或額外的幀類型或幀類型之組合。
參照所述之具體實施例描述並闡明本發明之原理後,可以理解可修改所述之具體實施例之安排與細節而不致悖離前述原理。應可理解,此處所數之程式、處理、或方法並不依賴或限於任何特定類型之運算環境,除非另為相反之指示。各種類型的一般用途或特殊運算環境皆可用於根據此處所述之說明,或其可執行相關作業。軟體中所述之具體實施例的元件可實作於硬體中,且反之亦然。
由於可運用本發明原理之可能具體實施例有很多,所有此類具體實施例皆屬於下述本發明之申請專利範圍及其均等之範圍與精神中。
100...運算環境
110...處理單元
120...記憶體
130...最基本之組態
140...儲存器
150...輸入裝置
160...輸出裝置
170...通訊連線
180...軟體
200...網路環境
202...語音輸入
210...輸入緩衝器
212...幀分割器
214...幀分類器
216...分析濾波器庫
220...取樣率控制器
222...類別資訊
230...語音編碼器
232、234...頻帶編碼元件
236...多工器
240、260...網路層(們)
250...網路
270...語音解碼器
272、274...解碼模組
276...解多工器
280...合成濾波器庫
284...後濾波器
292...解碼之語音輸出
294...經濾波之語音輸出
310...低頻率頻帶
320...中頻帶
330...高頻帶
400...頻帶編碼器
402...頻帶輸入
420...降低取樣
425...開放迴圈間距搜尋元件
430...LP分析元件
432...線性預測係數
434...差異信號
435...LPC處理元件
438...重建之LPC值
440...合成濾波器
450、455...感知加權元件
460...激勵參數化元件
465...本機解碼器
470、472、474、476...重建元件
480、482、484、486...增益應用元件
490、690、990...激勵信號
492...編碼之頻帶輸出
600、900...音頻帶解碼器
602、902...重建之子頻帶
635、935...LPC處理元件
638...重建LPC值
640、940...合成濾波器
670、672、674、676、970、972、974、976...適應性編碼簿階段
680、682、684、686、980、982、984、986...增益元件
692、992...編碼之語音資訊
710...激勵歷史
720...幀界限
730...子幀界限
740...現用幀
750...最遠的相依性
760...重新編碼之歷史
978...額外編碼簿階段
987...修訂之增益
988...隨機增益元件
994...零歷史元件
996...重置元件
998...切換
1010、1030、1050...正常幀
1015、1025、1035、1045、1055、1065...位元組界限
1020...具有主歷史之幀
1040...選用次級歷史資訊
1060...選用額外編碼簿階段資訊
1100...封包
1110、1160...幀1
1120、1170...幀2
1130、1180...幀3
1140、1190...幀4
1150...壓縮之封包
第1圖為一適當運算環境之一種區塊圖,可於其中實作一或更多種所述之具體實施例。
第2圖為一網路環境之一種區塊圖,其可連同一或更多種所述之具體實施例實作。
第3圖為一圖式,闡明可用於子頻帶編碼之一種子頻帶結構的一組頻率回應。
第4圖為一即時語音頻帶編碼器之一種區塊圖,其可連同一或更多種所述之具體實施例實作。
第5圖為一流程圖,闡明一實作中之參數決定。
第6圖為一即時語音頻帶解碼器之一種區塊圖,其可連同一或更多種所述之具體實施例實作。
第7圖為一激勵信號歷史之一種圖式,包括一現用幀及一重新編碼之一種先前幀的部份。
第8圖為一流程圖,闡明在一實作中一額外隨機編碼簿階段之參數決定。
第9圖為利用一額外隨機編碼簿階段之一即時語音頻帶解碼器的一種區塊圖。
第10圖為幀之一種位元串流格式之圖示,其包括可和某些實作一起運用之不同冗餘編碼技術的資訊。
第11圖為封包之位元串流格式之圖示,其包括具有可和某些實作一起運用之冗餘編碼資訊的幀。
202...語音輸入
210...輸入緩衝器
212...幀分割器
214...幀分類器
216...分析濾波器庫
220...取樣率控制器
222...類別資訊
230...語音編碼器
232、234...頻帶編碼元件
236...多工器
240、260...網路層(們)
250...網路
270...語音解碼器
272、274...解碼模組
276...解多工器
280...合成濾波器庫
284...後濾波器
292...解碼之語音輸出
294...經濾波之語音輸出

Claims (20)

  1. 一種用於音訊之編碼/解碼(codec)之方法,包含以下步驟:在一音訊處理工具中,處理一音訊信號之一位元串流,其中該位元串流包含:主編碼資訊,該主編碼資訊係根據一編碼技術編碼以用於一現用幀(frame),並參照欲用於解碼該現用幀之一上一幀之一段;以及冗餘編碼資訊,該冗餘編碼資訊根據該編碼技術以用於解碼該現用幀,該冗餘編碼資訊包含信號歷史資訊,該信號歷史資訊與該上一幀所參照之該段相關聯,係選擇以支持根據該編碼技術並參照該信號歷史資訊以解碼該現用幀;以及輸出一結果。
  2. 如申請專利範圍第1項所述之方法,其中該音訊處理工具為一即時語音編碼器,且該結果為編碼之語音。
  3. 如申請專利範圍第1項所述之方法,其中該信號歷史資訊包含參照之該段之激勵歷史(excitation history),但不包含該上一幀之一或更多個非參照之段的激勵歷史。
  4. 如申請專利範圍第1項所述之方法,其中該音訊處理工 具為一語音解碼器,及其中該處理步驟包含利用該冗餘編碼資訊以解碼該現用幀,不論該上一幀是否可供該解碼器使用之步驟。
  5. 如申請專利範圍第1項所述之方法,其中該音訊處理工具為一語音解碼器,及其中該處理步驟包含僅當該上一幀不可供該解碼器使用時,利用該冗餘編碼資訊以解碼該現用幀之步驟。
  6. 如申請專利範圍第1項所述之方法,其中以一品質程度設定編碼該信號歷史資訊,該品質程度設定至少部份依據解碼該現用幀時使用該冗餘編碼資訊之可能性。
  7. 如申請專利範圍第1項所述之方法,其中該音訊處理工具為一語音解碼器,及其中該處理步驟包含當該上一幀不可供該解碼器使用時,利用該冗餘編碼資訊以解碼該上一幀之步驟。
  8. 一種用於音訊之編碼/解碼之方法,包含以下步驟:在一音訊處理工具中,處理一音訊信號之一位元串流,其中該位元串流包含:主編碼資訊,該主編碼資訊係用於一現用編碼單元,並參照將用於解碼該現用編碼單元之一上一 編碼單元之一段;以及冗餘編碼資訊,該冗餘編碼資訊用於解碼該現用編碼單元,僅當該上一編碼單元不可用時,該冗餘編碼資訊包含欲用於解碼該現用編碼單元之一或更多個額外編碼簿階段的一或更多個參數;以及輸出一結果。
  9. 如申請專利範圍第8項所述之方法,其中用於該現用編碼單元之主編碼資訊包含殘餘信號參數,該等殘餘信號參數代表該現用編碼單元之一重建及該現用編碼單元之一預測間之一或更多個差異。
  10. 如申請專利範圍第8項所述之方法,其中:該音訊處理工具為一音訊編碼器;以及處理該位元串流之步驟包含產生該冗餘編碼資訊之步驟,其中產生該冗餘編碼資訊之步驟包含以下步驟:在假設該上一編碼單元中沒有激勵資訊之一封閉迴圈編碼器搜尋中,決定該一或更多個額外編碼簿階段之一或更多個參數。
  11. 如申請專利範圍第8項所述之方法,其中:該音訊處理工具為一語音解碼器;若該上一編碼單元不可供該解碼器使用,則該解碼 器利用該一或更多個額外編碼簿階段之該一或更多個參數,以解碼該現用編碼單元;以及若該上一編碼單元可供該解碼器使用,則該解碼器不利用該一或更多個額外編碼簿階段之該一或更多個參數,以解碼該現用編碼單元。
  12. 如申請專利範圍第8項所述之方法,其中該一或更多個額外編碼簿階段之該一或更多個參數為一適應性編碼簿階段之後的一固定編碼簿階段中之一固定編碼簿,其中該一或更多個額外編碼簿階段之一或更多個參數包括一編碼簿索引及一增益。
  13. 如申請專利範圍第12項所述之方法,其中該適應性編碼簿階段中之一適應性編碼簿的一或更多個參數代表參照該上一編碼單元之激勵歷史的該現用編碼單元之一激勵信號,但其中該固定編碼簿之一或多參數代表該激勵信號並未參照該激勵歷史。
  14. 如申請專利範圍第8項所述之方法,其中:該音訊處理工具為一音訊解碼器;以及處理該位元串流,包含以下步驟:若該上一編碼單元不可用時,則利用該主編碼資訊之至少一些以及一或更多個額外編碼簿階段 之一或更多個參數,以解碼該現用編碼單元;以及若該上一編碼單元可用時,則利用該主編碼資訊而非該一或更多個額外編碼簿階段之一或更多個參數,以解碼該現用編碼單元。
  15. 一種用於音訊之編碼/解碼之方法,包含以下步驟:在一音訊處理工具中,處理一音訊信號之一位元串流,該位元串流包含複數個編碼單元,其中該複數個編碼單元之每一編碼單元包含一欄位以指示:該編碼單元是否包含代表該音訊信號之一段的主編碼資訊;以及該編碼單元是否包含代表該音訊信號之該段的冗餘編碼資訊,且該冗餘編碼資訊可用於解碼該段相對應之主編碼資訊。
  16. 如申請專利範圍第15項所述之方法,其中每一編碼單元之該欄位可指示該編碼單元是否包含:主編碼資訊及冗餘編碼資訊兩者;主編碼資訊,但無冗餘編碼資訊;或冗餘編碼資訊,但無主編碼資訊。
  17. 如申請專利範圍第15項所述之方法,其中該處理之步驟包括封包化該複數個編碼單元之至少一些之步驟,其 中每一封包化之編碼單元包含冗餘編碼資訊以解碼相對應之主編碼資訊,但不包含該相對應之主編碼資訊,且該每一封包化之編碼單元係包括於具有該相對應之主編碼資訊之一封包中。
  18. 如申請專利範圍第15項所述之方法,其中該處理之步驟包括決定該複數個編碼單元之一現用編碼單元中的冗餘編碼資訊是否為任選之步驟。
  19. 如申請專利範圍第18項所述之方法,其中該處理之步驟更包括以下步驟:若該現用編碼單元中之該冗餘編碼資訊為任選時,則決定是否在該現用編碼單元中封包化該冗餘編碼資訊。
  20. 如申請專利範圍第15項所述之方法,其中若該複數個編碼單元之一現用編碼單元包含冗餘編碼資訊,則該現用編碼單元之該欄位指示該現用編碼單元之該冗餘編碼資訊的一類別。
TW095112871A 2005-05-31 2006-04-11 具有多重階段編碼簿及冗餘編碼之子頻帶語音編碼/解碼的方法 TWI413107B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/142,605 US7177804B2 (en) 2005-05-31 2005-05-31 Sub-band voice codec with multi-stage codebooks and redundant coding

Publications (2)

Publication Number Publication Date
TW200641796A TW200641796A (en) 2006-12-01
TWI413107B true TWI413107B (zh) 2013-10-21

Family

ID=37464576

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095112871A TWI413107B (zh) 2005-05-31 2006-04-11 具有多重階段編碼簿及冗餘編碼之子頻帶語音編碼/解碼的方法

Country Status (19)

Country Link
US (4) US7177804B2 (zh)
EP (2) EP1886306B1 (zh)
JP (2) JP5123173B2 (zh)
KR (1) KR101238583B1 (zh)
CN (2) CN101996636B (zh)
AT (1) ATE492014T1 (zh)
AU (1) AU2006252965B2 (zh)
BR (1) BRPI0610909A2 (zh)
CA (1) CA2611829C (zh)
DE (1) DE602006018908D1 (zh)
ES (1) ES2358213T3 (zh)
HK (1) HK1123621A1 (zh)
IL (1) IL187196A (zh)
NO (1) NO339287B1 (zh)
NZ (1) NZ563462A (zh)
PL (1) PL1886306T3 (zh)
RU (1) RU2418324C2 (zh)
TW (1) TWI413107B (zh)
WO (1) WO2006130229A1 (zh)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
EP1775718A4 (en) * 2004-07-22 2008-05-07 Fujitsu Ltd AUDIOCODING DEVICE AND AUDIOCODING METHOD
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US20070058530A1 (en) * 2005-09-14 2007-03-15 Sbc Knowledge Ventures, L.P. Apparatus, computer readable medium and method for redundant data stream control
US7664091B2 (en) * 2005-10-03 2010-02-16 Motorola, Inc. Method and apparatus for control channel transmission and reception
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8611300B2 (en) * 2006-01-18 2013-12-17 Motorola Mobility Llc Method and apparatus for conveying control channel information in OFDMA system
KR101366124B1 (ko) * 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
US8306827B2 (en) * 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US9515843B2 (en) * 2006-06-22 2016-12-06 Broadcom Corporation Method and system for link adaptive Ethernet communications
WO2008002098A1 (en) * 2006-06-29 2008-01-03 Lg Electronics, Inc. Method and apparatus for an audio signal processing
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
US8005678B2 (en) 2006-08-15 2011-08-23 Broadcom Corporation Re-phasing of decoder states after packet loss
US20080084853A1 (en) 2006-10-04 2008-04-10 Motorola, Inc. Radio resource assignment in control channel in wireless communication systems
US7778307B2 (en) * 2006-10-04 2010-08-17 Motorola, Inc. Allocation of control channel for radio resource assignment in wireless communication systems
WO2008064697A1 (en) * 2006-11-29 2008-06-05 Loquendo S.P.A. Multicodebook source -dependent coding and decoding
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8000961B2 (en) * 2006-12-26 2011-08-16 Yang Gao Gain quantization system for speech coding to improve packet loss concealment
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
CN101622663B (zh) * 2007-03-02 2012-06-20 松下电器产业株式会社 编码装置以及编码方法
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
EP2381580A1 (en) * 2007-04-13 2011-10-26 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
CN101170554B (zh) * 2007-09-04 2012-07-04 萨摩亚商·繁星科技有限公司 资讯安全传递系统
US8422480B2 (en) * 2007-10-01 2013-04-16 Qualcomm Incorporated Acknowledge mode polling with immediate status report timing
CN101874266B (zh) * 2007-10-15 2012-11-28 Lg电子株式会社 用于处理信号的方法和装置
EP2224432B1 (en) * 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder, and encoding method
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
JP4506870B2 (ja) * 2008-04-30 2010-07-21 ソニー株式会社 受信装置および受信方法、並びにプログラム
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20100027524A1 (en) * 2008-07-31 2010-02-04 Nokia Corporation Radio layer emulation of real time protocol sequence number and timestamp
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
US8156530B2 (en) 2008-12-17 2012-04-10 At&T Intellectual Property I, L.P. Method and apparatus for managing access plans
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
KR20140032013A (ko) * 2009-10-07 2014-03-13 니폰덴신뎅와 가부시키가이샤 무선 통신 시스템, 무선 중계국 장치, 무선 단말국 장치 및 무선 통신 방법
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和系统
TWI484473B (zh) * 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
PT2559028E (pt) * 2010-04-14 2015-11-18 Voiceage Corp Livro de códigos de inovação combinados flexível e evolutivo a utilizar num codificador e descodificador celp
US8660195B2 (en) * 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding
MY156027A (en) 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
ES2600313T3 (es) 2010-10-07 2017-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la estimación de nivel de tramas de audio codificadas en un dominio de flujo de bits
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
US8976675B2 (en) * 2011-02-28 2015-03-10 Avaya Inc. Automatic modification of VOIP packet retransmission level based on the psycho-acoustic value of the packet
US9171549B2 (en) 2011-04-08 2015-10-27 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
NO2669468T3 (zh) * 2011-05-11 2018-06-02
WO2012161675A1 (en) * 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
US9373335B2 (en) * 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
JP6173484B2 (ja) 2013-01-08 2017-08-02 ドルビー・インターナショナル・アーベー 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
RU2602332C1 (ru) * 2013-01-21 2016-11-20 Долби Лабораторис Лайсэнзин Корпорейшн Перекодировка метаданных
CN107257234B (zh) * 2013-01-21 2020-09-15 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
LT3511935T (lt) * 2014-04-17 2021-01-11 Voiceage Evs Llc Būdas, įrenginys ir kompiuteriu nuskaitoma neperkeliama atmintis garso signalų tiesinės prognozės kodavimui ir dekodavimui po perėjimo tarp kadrų su skirtingais mėginių ėmimo greičiais
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
US9893835B2 (en) * 2015-01-16 2018-02-13 Real-Time Innovations, Inc. Auto-tuning reliability protocol in pub-sub RTPS systems
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
AR106308A1 (es) 2015-10-08 2018-01-03 Dolby Int Ab Codificación en capas para representaciones de sonido o campo de sonido comprimidas
ES2903247T3 (es) 2015-10-08 2022-03-31 Dolby Int Ab Codificación en capas y estructura de datos para representaciones comprimidas de campo sonoro o sonido ambisónico de orden superior
US10049681B2 (en) * 2015-10-29 2018-08-14 Qualcomm Incorporated Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet
US10049682B2 (en) * 2015-10-29 2018-08-14 Qualcomm Incorporated Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet
CN107025125B (zh) * 2016-01-29 2019-10-22 上海大唐移动通信设备有限公司 一种原始码流解码方法和系统
CN107564535B (zh) * 2017-08-29 2020-09-01 中国人民解放军理工大学 一种分布式低速语音通话方法
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
US10984808B2 (en) * 2019-07-09 2021-04-20 Blackberry Limited Method for multi-stage compression in sub-band processing
CN110910906A (zh) * 2019-11-12 2020-03-24 国网山东省电力公司临沂供电公司 基于电力内网的音频端点检测及降噪方法
CN113724716B (zh) * 2021-09-30 2024-02-23 北京达佳互联信息技术有限公司 语音处理方法和语音处理装置
US20230154474A1 (en) * 2021-11-17 2023-05-18 Agora Lab, Inc. System and method for providing high quality audio communication over low bit rate connection
CN117558283B (zh) * 2024-01-12 2024-03-22 杭州国芯科技股份有限公司 一种多路多标准的音频解码系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870412A (en) * 1997-12-12 1999-02-09 3Com Corporation Forward error correction system for packet based real time media
US6647063B1 (en) * 1994-07-27 2003-11-11 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus and recording medium
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding

Family Cites Families (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4802171A (en) * 1987-06-04 1989-01-31 Motorola, Inc. Method for error correction in digitally encoded speech
US4815134A (en) 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5664051A (en) 1990-09-24 1997-09-02 Digital Voice Systems, Inc. Method and apparatus for phase synthesis for speech processing
KR960013206B1 (ko) 1990-12-31 1996-10-02 박헌철 조립식 원적외선 사우나 욕실
US5255339A (en) 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US20030075869A1 (en) * 1993-02-25 2003-04-24 Shuffle Master, Inc. Bet withdrawal casino game with wild symbol
US5706352A (en) * 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5717823A (en) 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
TW271524B (zh) 1994-08-05 1996-03-01 Qualcomm Inc
US5699477A (en) 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5751903A (en) 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
FR2734389B1 (fr) 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5668925A (en) 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5664055A (en) 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5699485A (en) 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5774837A (en) 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
EP0763818B1 (en) 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5835495A (en) 1995-10-11 1998-11-10 Microsoft Corporation System and method for scaleable streamed audio transmission over a network
TW321810B (zh) * 1995-10-26 1997-12-01 Sony Co Ltd
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5819213A (en) * 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
US5778335A (en) 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6041345A (en) 1996-03-08 2000-03-21 Microsoft Corporation Active stream format for holding multiple media streams
SE506341C2 (sv) 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JP3335841B2 (ja) 1996-05-27 2002-10-21 日本電気株式会社 信号符号化装置
US5819298A (en) * 1996-06-24 1998-10-06 Sun Microsystems, Inc. File allocation tables with holes
JPH1078799A (ja) * 1996-09-04 1998-03-24 Fujitsu Ltd コードブック
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6317714B1 (en) 1997-02-04 2001-11-13 Microsoft Corporation Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6292834B1 (en) 1997-03-14 2001-09-18 Microsoft Corporation Dynamic bandwidth selection for efficient transmission of multimedia streams in a computer network
US6728775B1 (en) 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
EP0934638B1 (en) 1997-05-12 2008-10-08 Texas Instruments Incorporated Method and apparatus for superframe bit allocation in a discrete multitone (dmt) system
US6009122A (en) 1997-05-12 1999-12-28 Amati Communciations Corporation Method and apparatus for superframe bit allocation
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
FI973873A (fi) 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
EP1734512B1 (en) * 1997-10-22 2015-09-09 Godo Kaisha IP Bridge 1 CELP encoder and a method of CELP encoding
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6351730B2 (en) 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6480822B2 (en) 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6493665B1 (en) 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6385573B1 (en) 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
FR2784218B1 (fr) 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6289297B1 (en) 1998-10-09 2001-09-11 Microsoft Corporation Method for reconstructing a video frame received from a video source over a communication channel
US6438136B1 (en) 1998-10-09 2002-08-20 Microsoft Corporation Method for scheduling time slots in a communications network channel to support on-going video transmissions
JP4359949B2 (ja) 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6310915B1 (en) 1998-11-20 2001-10-30 Harmonic Inc. Video transcoder with bitstream look ahead for rate control and statistical multiplexing
US6226606B1 (en) 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6499060B1 (en) 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6460153B1 (en) 1999-03-26 2002-10-01 Microsoft Corp. Apparatus and method for unequal error protection in multiple-description coding using overcomplete expansions
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6952668B1 (en) 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
DE59908889D1 (de) * 1999-06-18 2004-04-22 Alcatel Sa Gemeinsame Quellen- und Kanalcodierung
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6434247B1 (en) 1999-07-30 2002-08-13 Gn Resound A/S Feedback cancellation apparatus and methods utilizing adaptive reference filter mechanisms
US6721337B1 (en) * 1999-08-24 2004-04-13 Ibiquity Digital Corporation Method and apparatus for transmission and reception of compressed audio frames with prioritized messages for digital audio broadcasting
US6775649B1 (en) 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6505152B1 (en) 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6313714B1 (en) * 1999-10-15 2001-11-06 Trw Inc. Waveguide coupler
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6826527B1 (en) * 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
US6621935B1 (en) 1999-12-03 2003-09-16 Microsoft Corporation System and method for robust image representation over error-prone channels
AU2547201A (en) * 2000-01-11 2001-07-24 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
GB2358558B (en) 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6732070B1 (en) 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
US6693964B1 (en) 2000-03-24 2004-02-17 Microsoft Corporation Methods and arrangements for compressing image based rendering data using multiple reference frame prediction techniques that support just-in-time rendering of an image
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6934678B1 (en) 2000-09-25 2005-08-23 Koninklijke Philips Electronics N.V. Device and method for coding speech to be recognized (STBR) at a near end
EP1199709A1 (en) 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
US7065338B2 (en) * 2000-11-27 2006-06-20 Nippon Telegraph And Telephone Corporation Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
EP1356454B1 (en) * 2001-01-19 2006-03-01 Koninklijke Philips Electronics N.V. Wideband signal transmission system
US6614370B2 (en) 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
US7151749B2 (en) 2001-06-14 2006-12-19 Microsoft Corporation Method and System for providing adaptive bandwidth control for real-time communication
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US7277554B2 (en) * 2001-08-08 2007-10-02 Gn Resound North America Corporation Dynamic range compression using digital frequency warping
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6801510B2 (en) * 2001-10-11 2004-10-05 Interdigital Technology Corporation System and method for using unused arbitrary bits in the data field of a special burst
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US6647366B2 (en) 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
US6789123B2 (en) 2001-12-28 2004-09-07 Microsoft Corporation System and method for delivery of dynamically scalable audio/video content over a network
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
ATE396537T1 (de) * 2004-01-19 2008-06-15 Nxp Bv System für die audiosignalverarbeitung
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7362819B2 (en) 2004-06-16 2008-04-22 Lucent Technologies Inc. Device and method for reducing peaks of a composite signal
US7246037B2 (en) 2004-07-19 2007-07-17 Eberle Design, Inc. Methods and apparatus for an improved signal monitor
MX2007012187A (es) 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6647063B1 (en) * 1994-07-27 2003-11-11 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus and recording medium
US5870412A (en) * 1997-12-12 1999-02-09 3Com Corporation Forward error correction system for packet based real time media
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding

Also Published As

Publication number Publication date
US20060271355A1 (en) 2006-11-30
US7280960B2 (en) 2007-10-09
CA2611829C (en) 2014-08-19
JP2008546021A (ja) 2008-12-18
CN101996636B (zh) 2012-06-13
KR20080009205A (ko) 2008-01-25
ATE492014T1 (de) 2011-01-15
HK1123621A1 (en) 2009-06-19
NZ563462A (en) 2011-07-29
TW200641796A (en) 2006-12-01
NO339287B1 (no) 2016-11-21
IL187196A0 (en) 2008-02-09
IL187196A (en) 2014-02-27
DE602006018908D1 (de) 2011-01-27
EP1886306B1 (en) 2010-12-15
CN101996636A (zh) 2011-03-30
US20080040121A1 (en) 2008-02-14
KR101238583B1 (ko) 2013-02-28
AU2006252965B2 (en) 2011-03-03
US7904293B2 (en) 2011-03-08
US7177804B2 (en) 2007-02-13
PL1886306T3 (pl) 2011-11-30
AU2006252965A1 (en) 2006-12-07
CN101189662B (zh) 2012-09-05
ES2358213T3 (es) 2011-05-06
US20080040105A1 (en) 2008-02-14
NO20075782L (no) 2007-12-19
WO2006130229A1 (en) 2006-12-07
EP2282309A2 (en) 2011-02-09
US7734465B2 (en) 2010-06-08
BRPI0610909A2 (pt) 2008-12-02
EP1886306A4 (en) 2008-09-10
JP5186054B2 (ja) 2013-04-17
RU2007144493A (ru) 2009-06-10
JP5123173B2 (ja) 2013-01-16
RU2418324C2 (ru) 2011-05-10
EP2282309A3 (en) 2012-10-24
JP2012141649A (ja) 2012-07-26
EP1886306A1 (en) 2008-02-13
CN101189662A (zh) 2008-05-28
CA2611829A1 (en) 2006-12-07
US20060271357A1 (en) 2006-11-30

Similar Documents

Publication Publication Date Title
TWI413107B (zh) 具有多重階段編碼簿及冗餘編碼之子頻帶語音編碼/解碼的方法
JP5072835B2 (ja) 堅牢なデコーダ
TWI569261B (zh) 用以使用基於時域激勵信號之錯誤隱藏提供解碼音訊資訊之音訊解碼器及方法
US8391373B2 (en) Concealment of transmission error in a digital audio signal in a hierarchical decoding structure
KR101180202B1 (ko) 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치
JP5283046B2 (ja) ピーク検出に基づく選択的スケーリングマスク計算
RU2584463C2 (ru) Кодирование звука с малой задержкой, содержащее чередующиеся предсказательное кодирование и кодирование с преобразованием
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees