TWI463486B - 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 - Google Patents
音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI463486B TWI463486B TW098121854A TW98121854A TWI463486B TW I463486 B TWI463486 B TW I463486B TW 098121854 A TW098121854 A TW 098121854A TW 98121854 A TW98121854 A TW 98121854A TW I463486 B TWI463486 B TW I463486B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- audio
- decoding
- encoding
- decoder
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Description
本發明係關於音訊編碼,特別係關於低位元速率音訊編碼方案。
技藝界已知頻域編碼方案諸如MP3或AAC。此等頻域編碼器係基於時域/頻譜變換;隨後之量化階段其中量化誤差係使用得自心理聲學模組之資訊控制;及一編碼階段,其中該量化頻譜係數及相對應之旁資訊係使用代碼表進行熵編碼。
另一方面,有極為適合用於語音處理之編碼器,諸如AMR-WB+,說明於3GPP TS 26.290。此等語音編碼方案執行時域信號之線性預測濾波。此種LP濾波係由輸入的時域信號之線性預測分析而導算出。所得LP濾波器係數隨後經編碼且傳送作為旁資訊。該處理程序稱作為線性預測編碼(LPC)。於該濾波器之輸出端,預測殘餘信號或預測誤差信號其也稱作為激勵信號係使用ACELP編碼器之藉合成分析階段編碼,或另外係使用變換編碼器編碼,該變換編碼器係使用具有重疊之傅立葉變換。ACELP編碼與已變換編碼之激勵編碼(也稱作為TCX編碼)間之判定係使用閉環演繹法則或開環演繹法則進行。
頻域音訊編碼方案諸如高頻AAC編碼方案係組合AAC編碼方案及頻譜頻寬複製技術也可組合至聯合立體聲或多頻道編碼工具,該工具於「MPEG環繞」一詞下為已知。
另一方面,語音編碼器諸如AMR-WB+也具有一高頻加強階段及一立體聲功能。
頻域編碼方案之優點在於其對音樂信號於低位元速率顯示高品質。但問題在於於低位元速率之語音信號的品質。
語音編碼方案對語音信號即使於低位元速率也顯示高品質,但對於低位元速率之音樂信號顯示品質不佳。
本發明之目的係提供一種改良型編碼構想。
此項目的可藉如申請專利範圍第1項之音訊編碼器、如申請專利範圍第13項之音訊編碼方法、如申請專利範圍第14項之音訊解碼器、如申請專利範圍第24項之音訊解碼方法、如申請專利範圍第25項之電腦程式或如申請專利範圍第26項之已編碼音訊信號達成。
於本發明之一個面相中,控制開關之決策階段用來將共用預處理階段之輸出信號饋至兩個分支中之一者。一個分支主要係藉來源模型及/或藉客觀測量值諸如SNR激勵,而另一分支係藉匯集模型及/或心理聲學模型亦即藉聽覺遮蔽激勵。
舉例言之,一個分支具有頻域編碼器,而另一個分支具有LPC域編碼器諸如語音編碼器。來源模型通常為語音處理,因此常用LPC。如此,典型預處理階段諸如聯合立體聲或多頻道編碼階段及/或頻寬擴展階段常用於兩種編碼演繹法則,此種情況比較一個完整音訊編碼器及一個完整語音編碼器用於相同目的的情況,可節省相當大量的儲存容量、晶片面積、電力耗用等。
於較佳實施例中,一種音訊編碼器包含用於二分支之一共用預處理階段,其中第一分支主要係藉匯集模型及/或心理聲學模型亦即藉聽覺遮蔽來激勵,及其中第二分支主要係藉來源模型及分段SNR計算激勵。音訊編碼器較佳具有一個或多個開關用於藉一決策階段控制而於此等分支間於輸入此等分支或由此等分支輸出間切換。於音訊編碼器中,第一分支較佳包括基於心理聲學之音訊編碼器,及其中該第二分支包括LPC及SNR分析器。
於較佳實施例中,一種音訊解碼器包含一基於資訊匯集之解碼分支諸如頻譜域解碼分支;一基於資訊來源之解碼分支諸如LPC域解碼分支;用於介於二分支間切換之一開關;及用於後處理一時域音訊信號來獲得一已後處理的音訊信號之一共用後處理階段。
根據本發明之又一面相之一已編碼音訊信號,包含表示一音訊信號之第一部分之一第一編碼分支輸出信號,該第一部分係根據第一編碼演繹法則編碼,該第一編碼演繹法則具有資訊匯集模型,該第一編碼分支輸出信號具有表示該音訊信號之已編碼頻譜資訊;表示一音訊信號之第二部分之一第二編碼分支輸出信號,該第二部分係與該輸出信號之第一部分不同,該第二部分係根據第二編碼演繹法則編碼,該第二編碼演繹法則具有資訊來源模型,該第二編碼分支輸出信號具有表示該中間信號之用於資訊來源之已編碼參數;及表示該音訊信號與該音訊信號之擴展版本間之差異之共用預處理參數。
隨後將就附圖說明本發明之較佳實施例,附圖中:第1a圖為根據本發明之第一面相之編碼方案之方塊圖;第1b圖為根據本發明之第一面相之解碼方案之方塊圖;第2a圖為根據本發明之第二面相之編碼方案之方塊圖;第2b圖為根據本發明之第二面相之解碼方案之方塊圖;第3a圖示例顯示根據本發明之又一面相之編碼方案之方塊圖;第3b圖示例顯示根據本發明之又一面相之解碼方案之方塊圖;第4a圖示例顯示有一開關位於該編碼分支之前之一方塊圖;第4b圖示例顯示該開關係位於編碼該等分支之後之一編碼方案之方塊圖;第4c圖示例顯示較佳組合器實施例之方塊圖;第5a圖示例顯示時域語音節段呈準週期性或脈衝狀信號節段之波形圖;第5b圖示例顯示第5a圖之節段之頻譜;第5c圖示例顯示無聲語音之一時域語音節段作為穩態節段及雜訊狀節段之實例;第5d圖示例顯示第5c圖之時域波形圖之頻譜;第6圖示例顯示藉合成分析之CELP編碼器之方塊圖;第7a至7d圖示例顯示有聲/無聲激勵信號作為脈衝狀信號及穩態/雜訊狀信號之實例;第7e圖示例顯示提供短期預測資訊及預測誤差信號之編碼器端LPC階段;第8圖示例顯示根據本發明之實施例一種聯合多頻道演繹法則之方塊圖;第9圖示例顯示頻寬擴展演繹法則之較佳實施例;第10a圖示例顯示當開關執行開環決策時之細節說明;及第10b圖示例顯示當開關於閉環決策模型運算時之實施例。
單聲信號、立體聲信號或多頻道信號輸入第1a圖之一共用預處理階段100。共用預處理方案可具有聯合立體聲功能、環繞功能及/或頻寬擴展功能。於區塊100之輸出端,有一單聲頻道、一立體聲頻道或多數頻道其係輸入一開關200或多數同型開關200。
當階段100有兩個或多個輸出端,亦即當階段100輸出立體聲信號或多頻道信號時,對階段100之各個輸出端可存在有開關200。舉例言之,立體聲信號之第一頻道可為語音頻道,立體聲信號之第二頻道可為音樂頻道。於此種情況下,於決策階段之決策對同一個時間瞬間介於兩個頻道間可有不同。
開關200係藉決策階段300控制。決策階段接收輸入區塊100之一信號或由區塊100輸出之一信號作為輸入信號。另外,決策階段300也接收含括於該單聲信號、立體聲信號或多頻道信號或至少關聯此種信號之旁資訊,此處該資訊係於原先產生該單聲信號、立體聲信號或多頻道信號時已存在或例如所產生。
於一個實施例中,決策階段並未控制預處理階段100,區塊300與區塊100間之箭頭不存在。於又一個實施例中,於區塊100之處理係藉決策階段300控制至某種程度俾便基於該決策而設定區塊100中之一個或多個參數。如此將不影響區塊100之一般演繹法則,故區塊100之主要功能被啟動而與階段300之決策無關。
決策階段300致動開關200俾便將共用預處理階段之輸出信號饋至第1a圖之上分支顯示之一頻率編碼部400或第1a圖下分支顯示之一LPC域編碼部500。
於一個實施例中,開關200介於兩個編碼分支400、500間切換。於又一個實施例中,可有額外編碼分支諸如第三編碼分支或甚至第四編碼分支或甚至更多編碼分支。於具有三個編碼分支之一個實施例中,第三編碼分支係類似第二編碼分支,但可包括與第二分支500之激勵編碼器520不同之一激勵編碼器。於此實施例中,第二分支包含LPC階段510及基於碼簿之激勵編碼器諸如ACELP;及第三分支包含LPC階段及於該LPC階段輸出信號之頻譜表示法上運算之一激勵編碼器。
頻域編碼分支之關鍵元件為一頻譜變換區塊410,其運算而將該共用預處理階段輸出信號變換成頻譜域。頻譜變換區塊包括一MDCT演繹法則、一QMF、一FFT演繹法則、子波分析或一濾波器組諸如具有某個數目之濾波器組頻道之經臨界取樣的濾波器組,此處於本濾波器組之子頻帶信號可為實際數值信號或複合數值信號。頻譜變換區塊410之輸出係使用頻譜音訊編碼器420編碼,其可包括如由AAC編碼方案已知之處理區塊。
於下編碼分支500,關鍵元件為來源模型分析器諸如LPC 510,其輸出兩種信號。一種信號為LPC資訊信號,其用於控制LPC合成濾波器之濾波特徵。本LPC資訊傳送至一解碼器。另一個LPC階段輸出信號為激勵信號或LPC域信號,其係輸入激勵編碼器520。激勵編碼器520可來自任何來源濾波器模型編碼器諸如CELP編碼器、ACELP編碼器或任何其它處理LPC域信號之編碼器。
另一種較佳激勵編碼器實務為激勵信號之變換編碼。於本實施例中,激勵信號並未使用ACELP碼簿機制編碼,反而激勵信號被變換成頻譜表示法,而該等頻譜表示法數值諸如於濾波器組情況下之子頻帶信號或於變換諸如FFT情況下之頻率係數經編碼來獲得資料壓縮。此種激勵編碼器之實務為由AMR-WB+已知之TCX編碼模式。
於決策階段之決策可為信號自適應,因此決策階段執行音樂/語音鑑別,且控制開關200使得音樂信號係輸入上分支400及語音信號係輸入下分支500。於一個實施例中,決策階段將其決策資訊饋入輸出位元流,故解碼器可使用本決策資訊來執行正確的解碼運算。
此種解碼器示例說明於第1b圖。由頻譜音訊編碼器420所輸出之信號於傳送後,輸入頻譜音訊解碼器430。頻譜音訊解碼器430之輸出信號係輸入時域變換器440。同理,第1a圖之激勵編碼器520之輸出信號係輸入激勵解碼器530,其輸出一LPC域信號。LPC域信號係輸入LPC合成階段540,其接收由相對應之LPC分析階段510所產生之LPC資訊作為額外輸入信號。時域變換器440之輸出信號及/或LPC合成階段540之輸出信號係輸入開關600。開關600係透過開關控制信號控制,該開關控制信號例如可由決策階段300產生,或由外部提供諸如藉原先單聲信號、立體聲信號或多頻道信號之產生器提供。
開關600之輸出信號為完全單聲信號,其隨後輸入一共用後處理階段700,階段700執行聯合立體聲處理或頻寬擴展處理等。另外,該開關之輸出信號也可為立體聲信號或甚至為多頻道信號。當預處理包括頻道縮減成為兩個頻道時,該輸出信號為立體聲信號。當頻道縮減為三個頻道或甚至絲毫也無頻道縮減反而只有執行頻帶複製時,該信號甚至可為多頻道信號。
依據該共用後處理階段之特定功能而定,輸出單聲信號、立體聲信號或多頻道信號,當共用後處理階段700執行頻寬擴展操作時,該信號具有比輸入區塊700之信號更寬的頻寬。
於一個實施例中,開關600介於兩個解碼分支430、440及530、540間切換。於一額外實施例中,可有額外解碼分支諸如第三解碼分支或甚至第四解碼分支或甚至更多個解碼分支。於有三個解碼分支之一實施例中,第三解碼分支可類似第二解碼分支,但可包括與第二分支530、540之激勵解碼器530不同的激勵解碼器。於本實施例中,第二分支包含LPC階段540及基於碼簿之激勵解碼器諸如ACELP;第三分支包含LPC階段及對LPC階段540之輸出信號的頻譜表示法上運算之一激勵解碼器。
如前文說明,第2a圖示例顯示根據本發明之第二面相之較佳編碼方案。於第1a圖100之共用預處理方案現在包含一環繞/聯合立體聲區塊101,其產生聯合立體聲參數作為輸出信號,及一單聲輸出信號,係經由將屬於具有兩個或多個頻道之輸入信號降混而產生。大致上,於區塊101之輸出端之信號也可為具有多個頻道之信號,但由於區塊101之降混功能,於區塊101之輸出端之頻道數目將小於輸入區塊101之頻道數目。
區塊101之輸出信號係輸入頻寬擴展區塊102,於第2a圖之編碼器中,區塊102於其輸出端輸出頻帶有限信號諸如低頻帶信號或低通信號。此外,對輸入區塊102之信號之高頻帶,產生頻寬擴展參數諸如頻譜封包參數、反相濾波參數、雜訊底位準參數等如由MPEG-4之HE-AAC側寫資料可知,且係前傳至位元流多工器800。
較佳,決策階段300接收輸入區塊101或輸入區塊102之信號,俾便介於例如音樂模式或語音模式間作判定。於音樂模式,選用上編碼分支400,而於語音模式,則選用下編碼分支500。較佳決策階段額外控制聯合立體聲區塊101及/或頻寬擴展區塊102來將此等區塊之功能自適應於特定信號。如此,當決策階段300決定輸入信號的某個時間部分具有第一模式諸如音樂模式,則區塊101及/或區塊102之特定特徵可藉決策階段300控制。此外,當決策階段300判定該信號係於語音模式或通常係於LPC域編碼模式,則區塊101及102之特定特徵可根據決策階段之輸出控制。
依據由開關200輸入信號或任何外部來源諸如輸入階段200之信號下方的原先音訊信號產生器所導算出之開關決策而定,開關介於頻率編碼分支400與LPC編碼分支500間切換。頻率編碼分支400包含一頻譜變換階段410及一隨後連結的量化/編碼階段421(如第2a圖所示)。量化/編碼階段可包含由現代時域編碼器諸如AAC編碼器所已知之任一項功能。此外,於量化/編碼階段421之量化操作可透過心理聲學模組控制,該模組產生心理聲學資訊諸如頻率之心理聲學遮蔽臨界值,此處該資訊係輸入階段421。
較佳係使用MDCT運算進行頻譜變換,又更佳為時間翹曲的MDCT運算,此處強度或通常為翹曲強度可控制於零翹曲強度與高翹曲強度間。於零翹曲強度,於區塊411之MDCT運算為技藝界已知之直通式MDCT運算。時間翹曲強度連同時間翹曲旁資訊可傳送/輸入位元流多工器800作為旁資訊。因此若使用TW-MDCT,時間翹曲旁資訊係如第2a圖之424示例說明,送至位元流;而於解碼器端,時間翹曲旁資訊可接收自位元流,如第2b圖顯示於項目434。
於LPC編碼分支,LPC域編碼器可包括一ACELP核心,計算音高增益、音高滯後及/或碼簿資訊諸如碼簿指數及碼增益。
於第一編碼分支400,頻譜變換器較佳包含具有某些視窗函數之特別自適應的MDCT運算,接著為量化/熵編碼階段,其可為向量量化階段,但較佳如對頻域編碼階段中之量化器/編碼器指示之一量化器/編碼器,亦即第2a圖之項目421。
第2b圖示例顯示與第2a圖之編碼方案相對應之解碼方案。由第2a圖之位元流多工器800產生之位元流輸入位元流解多工器900。依據由位元流透過模式檢測區塊601之實例導算出之資訊,解碼器端開關600係控制於來自上分支之前傳信號或由下分支至頻寬擴展區塊701之信號。頻寬擴展區塊701由位元流解多工器900接收旁資訊,且基於此旁資訊及模式檢測601之輸出信號,基於由開關600輸出之低頻帶,重建高頻帶。
區塊701產生之全頻帶信號輸入聯合立體聲/環繞處理階段702,其重建兩個立體聲頻道或數個多頻道。通常區塊702將輸出比輸入本區塊更多的頻道。依據應用而定,輸入區塊702之輸入信號甚至包括二頻道諸如立體聲模式,甚至包括多個頻道,只要本區塊的輸出具有比本區塊之輸入信號更多個頻道即可。
通常存在有激勵解碼器530。於區塊530實施的演繹法則自適應於編碼器端於區塊520所使用之相對應演繹法則。雖然階段431輸出由時域信號導算出之頻譜,其係使用頻率/時間變換器440而變換成時域,階段530輸出LPC域信號。階段530之輸出資料使用LPC合成階段540變換返回時域,其係透過編碼器端產生的且傳送的LPC資訊控制。然後於區塊540之後,二分支具有時域資訊,係根據開關控制信號切換俾便最終獲得音訊信號諸如單聲信號、立體聲信號或多頻道信號。
開關200業已顯示於二分支間切換,使得只有一個分支接收一欲處理之信號,而另一分支並未接收欲處理之信號。但於另一個實施例中,開關也可配置於例如音訊編碼器420及激勵編碼器520之後,表示二分支400、500並列處理相同信號。但為了讓位元速率不加倍,該等編碼分支400或500中只有一者輸出的信號被選用來寫入輸出位元流。然後決策階段運算使得寫入位元流之信號最小化某個代價函數,此處該代價函數可為所產生的位元速率,或所產生的感官失真或位元速率/失真組合的代價函數。因此於本模式中或於附圖顯示之模式中,決策階段也可以閉環模式運算來確保最終只有編碼分支輸出信號被寫入下述位元流,該位元流對一給定的感官失真具有最低位元速率,或對一給定位元速率具有最低的感官失真。
通常分支400之處理為基於感官之模型或資訊匯集模型處理。如此,本分支將接收聲音的人類聽覺系統模型化。相反地,分支500之處理係產生於激勵、殘餘或LPC域之信號。通常,分支500之處理為語音模型或資訊產生模型的處理。對語音信號,本模型為產生聲音的人類語音/聲音產生系統模型。但若欲編碼要求不同的聲音產生模型之來自不同來源的聲音,則於分支500之處理可有不同。
雖然第1a圖至第2b圖係以裝置之方塊圖舉例說明,但此等圖式同時也是一種方法之示例說明,此處區塊功能係與該方法步驟相對應。
第3a圖示例顯示用於第一編碼分支400及第二編碼分支500之輸出端產生已編碼音訊信號之音訊編碼器。此外,已編碼音訊信號較佳包括旁資訊,諸如得自共用預處理階段之預處理參數,或就先前附圖討論之開關控制資訊。
較佳,第一編碼分支根據第一編碼演繹法則運算來編碼音訊中間信號195,其中該第一編碼演繹法則具有資訊匯集模型。第一編碼分支400產生第一編碼器輸出信號,其為音訊中間信號195之已編碼頻譜資訊表示法。
此外,第二編碼分支500自適應根據第二編碼演繹法則編碼音訊中間信號195,該第二編碼演繹法則具有資訊來源模型,且於第一編碼器輸出信號,對表示該中間音訊信號之資訊來源模型產生已編碼的參數。
音訊編碼器額外包含共用預處理階段,用於預處理一音訊輸入信號99來獲得音訊中間信號195。特定言之,共用預處理階段操作來處理音訊輸入信號99,使得音訊中間信號195亦即共用預處理演繹法則之輸出信號為該音訊輸入信號的壓縮版本。
用於產生已編碼音訊信號之一種較佳音訊編碼方法包含一編碼步驟400,根據第一編碼演繹法則編碼音訊中間信號195,該第一編碼演繹法則具有資訊匯集模型且於一第一輸出信號中產生表示該音訊信號之已編碼頻譜資訊;一編碼步驟500,根據第二編碼演繹法則編碼音訊中間信號195,該第二編碼演繹法則具有資訊來源模型且於一第二輸出信號中產生用於表示音訊中間信號195之該資訊來源模型之已編碼參數;及一共用預處理階段100,共用預處理音訊輸入信號99來獲得音訊中間信號195,其中於該共用預處理階段中,音訊輸入信號99經處理,故音訊中間信號195為音訊輸入信號99之壓縮版本,其中該已編碼音訊信號對該音訊信號之某個部分包括第一輸出信號或第二輸出信號。該方法較佳包括額外步驟,使用第一編碼演繹法則或使用第二編碼演繹法則編碼該音訊中間信號之某一部分,或使用兩種演繹法則編碼該信號;以及於一已編碼信號中輸出第一編碼演繹法則之結果或第二編碼演繹法則之結果。
通常,用於第一編碼分支400之音訊編碼演繹法則反映出且模型化於音訊匯集的情況。音訊資訊的匯集通常為人耳。人耳可模型化為頻率分析器。因此第一編碼分支輸出已編碼頻譜資訊。較佳,第一編碼分支額外包括心理聲學模型用於額外施加心理聲學遮蔽臨界值。此心理聲學遮蔽臨界值係用於量化音訊頻譜值之時,此處較佳進行量化使得藉頻譜音訊值量化所導入的量化雜訊被隱藏於該心理聲學遮蔽臨界值之下。
第二編碼分支表示資訊來源模型,該模型反映出音訊聲音的產生。因此資訊來源模型可包括語音模型,語音模型係藉LPC階段反映,亦即藉將時域信號變換成LPC域信號以及隨後處理該LPC殘餘信號亦即激勵信號而反映。但替代聲音來源模型為用於表示某個樂器或其它聲音產生器諸如存在於實際世界之特定聲音來源的聲音來源模型。不同聲音來源模型間之選擇於有數個聲音來源模型時基於SNR計算亦即基於哪一個聲音來源模型為最適合編碼一音訊信號的某個時間部分及/或某個頻率部分作選擇。但較佳,編碼分支間之切換係於時域進行,亦即使用一種模型編碼某個時間部分,使用另一個編碼分支編碼中間信號的不同時間部分。
資訊來源模型係以某些參數表示。有關語音模型,當考慮現代語音編碼器諸如AMR-WB+時,參數為LPC參數及已編碼激勵參數。AMR-WB+包含ACELP編碼器及TCX編碼器。此種情況下,已編碼激勵參數可為通用增益、雜訊底位準、及可變長度碼。
大致上,全部資訊來源模型將允許設定一參數集合,其極為有效地反映該原先音訊信號。因此,第二編碼分支之輸出信號將為用於表示該音訊中間信號之資訊來源模型之已編碼參數。
第3b圖示例顯示第3a圖所示編碼器相對應之一解碼器。通常,第3b圖示例顯示用於解碼已編碼音訊信號來獲得已解碼之音訊信號799之一音訊解碼器。該解碼器包括第一解碼分支450用於解碼根據具有資訊匯集模型之第一編碼演繹法則所編碼之已編碼信號。此外,該音訊解碼器包括一第二解碼分支550,用於解碼根據具有資訊來源模型之第二編碼演繹法則所編碼之一已編碼資訊信號。此外,該音訊解碼器包括一組合器,用於將得自第一解碼分支450及第二解碼分支550之輸出信號組合來獲得一組合信號。第3b圖示例顯示為已解碼的音訊中間信號699之該組合信號係輸入一共用後處理階段用來後處理已解碼的音訊中間信號699,該信號為組合器600輸出之組合信號,使得共用預處理階段之輸出信號為該組合信號之擴展版本。如此已解碼的音訊信號799具有比已解碼的音訊中間信號699加強的資訊內容。本資訊擴展係由共用後處理階段藉助於預處理/後處理參數提供,該等參數可由編碼器傳輸至解碼器,或可由已解碼的音訊中間信號本身導算出。但較佳,預處理/後處理參數係由編碼器傳送至解碼器,原因在於此種程序可允許已解碼之音訊信號的品質改良。
第4a圖及第4b圖顯示兩個不同實施例,其差異在於開關200的位置。第4a圖中,開關200係位於共用預處理階段100之輸出端與該二編碼分支400、500之輸入端間。第4a圖之實施例確保音訊信號只輸入單一編碼分支,另一個編碼分支並未連接至該共用預處理階段之輸出端將不會運作,因此被關斷或處在於休眠模式。本實施例較佳之處在於未啟動的編碼分支不會耗用電力資源及運算資源,該等資源可供行動應用使用特別為電池供電的行動應用,因而行動應用的耗電量通常受限制。
但另一方面,第4b圖之實施例於耗電量不成問題時為較佳。於本實施例中,二編碼分支400、500隨時啟動,只有對某個時間部分及/或對某個頻率部分所選定的編碼分支之輸出信號前傳至位元流格式化器,該位元流格式化器可實施為位元流多工器800。因此於第4b圖之實施例中,二編碼分支隨時為啟動,被決策階段300所選定之一編碼分支的輸出信號進入輸出位元流,而另一個未被選定之編碼分支400之輸出信號被拋棄,亦即並未進入輸出位元流,亦即已編碼音訊信號。
第4c圖顯示較佳解碼器實務之又一面相。特別於第一解碼器為時間頻疊產生性解碼器或通稱為頻域解碼器而第二解碼器為時域解碼器之情況下,為了避免聽覺假信號,由第一解碼器450及第二解碼器550輸出的區塊或訊框間的邊界不可完全連續,特別於切換情況下不可完全連續。如此,當輸出第一解碼器450之第一區塊時,對隨後之時間部分,當輸出第二解碼器之一區塊時,較佳執行如交叉衰減區塊607示例顯示之交叉衰減運算。為了達成此項目的,交叉衰減區塊607可如第4c圖所示實施於607a、607b及607c。各個分支具有規度化比例之介於0至1之加權因數m1
之一加權器,此處該加權因數可如作圖609指示改變,諸如交叉衰減法則確保進行連續平順的交叉衰減,此外,確保使用者不會察覺任何響度變化。
於某些情況下,第一解碼器之最末區塊係使用一視窗產生,此處該視窗實際上執行本區塊之淡出。於此種情況下,區塊607a之加權因數m1
係等於1,實際上本區塊絲毫也無需加權。
當由第二解碼器切換至第一解碼器時,且當第二解碼器包括一視窗其實際上將輸出信號淡出至該區塊之末端時,則無需「m2
」指示之加權器,或整個交叉衰減區之加權參數可設定為1。
當於開關後方使用視窗運算而產生第一區塊時,以及當此視窗實際上執行淡入運算時,則相對應之加權因數也可設定為1,故實際上無需加權器。因此當最末區塊經視窗化來藉解碼器淡出時,且當開關後方的第一區塊係使用解碼器視窗化來提供淡入時,則絲毫也無需加權器607a、607b,藉加法器607c進行加法操作即足。
於此種情況下,最末訊框的淡出部及下一個訊框的淡入部界定區塊609指示的交叉衰減區。此外,較佳一個解碼器之最末區塊與另一個解碼器之第一區塊有若干時間重疊。
若無需或不可能或不期望交叉衰減運算,且若只有由一個解碼器硬切換至另一個解碼器,則較佳於音訊信號之寂靜章節或至少於低能量亦即感知為寂靜或幾乎寂靜之音訊信號章節執行。較佳地,決策階段300確保於此種實施例中,只於開關事件之後相對應的時間部分具有能量例如係低於音訊信號之平均能量,較佳係低於例如音訊信號之兩個或甚至更多個時間部分/訊框之相關音訊信號之平均能量的50%時才作動開關200。
較佳第二編碼法則/解碼法則為基於LPC之編碼演繹法則。於基於LPC之語音編碼中,介於準週期性脈衝狀激勵信號節段或信號部分與雜訊狀激勵信號節段或信號部分間作區別。
準週期性脈衝狀激勵信號節段亦即具有特定音高之信號節段係以與雜訊狀激勵信號不同的機制編碼。準週期性脈衝狀激勵信號係連結至有聲語音,雜訊狀信號係關於無聲語音。
例如參考第5a圖至第5d圖。此處舉例說明討論準週期性脈衝狀信號節段或信號部分及雜訊狀信號節段或信號部分。特別,第5a圖顯示於時域及第5b圖顯示於頻域之有聲語音係討論作為準週期性脈衝狀信號部分之實例,而無聲語音節段作為雜訊狀信號部分之實例係關聯第5c圖及第5d圖討論。語音通常歸類為有聲、無聲或混合型。對所取樣的有聲節段及無聲節段之時域及頻域作圖顯示於第5a圖至第5d圖。有聲語音於時域為準週期性,於頻域為諧波結構,而無聲語音為隨機狀且寬頻。此外,有聲節段之能量通常係高於無聲節段。有聲語音之短時間頻譜係以細緻且共振峰結構為特性。細緻諧波結構係由於語音之準週期性的結果,可歸因於振動的聲帶。共振峰結構(頻譜封包)係由於來源與聲道交互作用的結果聲道包含咽門及口腔。「匹配」有聲語音的短時間頻譜之頻譜封包形狀係關聯聲道及由於聲門脈衝導致頻譜傾斜(6分貝/八音度)之傳輸特性。頻譜封包係以稱作為共振封的一組波峰集合為特徵。共振峰為聲道之共振模式。對平均聲道,有3個至5個低於5kHz之共振峰。前三個共振峰通常低於3kHz之振幅及位置於語音合成及感知方面相當重要。較高共振峰對寬頻且無聲的語音呈現也相當重要。語音性質係與實體語音產生系統相關如下。經由以振動的聲帶產生的準週期性聲門空氣脈衝激勵,產生有聲語音。週期性脈衝之頻率稱作為基頻或音高。無聲語音係由強迫空氣通過聲道的狹窄處產生。鼻音係由於鼻道與聲道之聲學耦合的結果,爆裂音係藉突然釋放出累積於聲道閉合處後方的空氣壓力產生。
如此,音訊信號之雜訊狀部分既未顯示脈衝狀時域結構也未顯示諧波頻域結構,如第5c圖及第5d圖所示,此點係與第5a圖及第5b圖所示之準週期性脈衝狀部分不同。如後文摘要說明,雜訊狀部分與準週期性脈衝狀部分間之區別可於激勵信號之LPC之後觀察得。LPC為將聲道模型化且由聲道激勵擷取信號之方法。
此外,準週期性脈衝狀部分及雜訊狀部分係以定時方式出現,亦即表示音訊信號於時間上之一部分為雜訊,音訊信號於時間上之另一部分為準週期性亦即調性。另外或此外,於不同頻帶,一信號之特性可有不同。如此,判定該音訊信號為雜訊或為調性也可以頻率選擇性進行,因此某一個頻帶或某數個頻帶可視為雜訊,而其它頻帶被考慮為調性。於此種情況下,音訊信號之某個時間部分將包括調性組分及雜訊組分。
第7a圖示例顯示語音產生系統之線性模型。本系統假設二階段激勵,亦即有聲語音之脈衝串列指示於第7c圖,無聲語音之隨機雜訊指示於第7d圖。聲道被模型化為全極點濾波器70,其處理由聲門模型72所產生的第7c圖或第7d圖的脈衝或雜訊。全極點傳輸功能係由表示共振峰的少數二極點共振器之級聯形成。聲門模型係以二極點低通濾波器表示,脣放射模型74係以L(z)=1-z-1
表示。最後,含括頻譜校正因數76來補償較高極點的低頻效應。於個別語音表示法中,頻譜校正被刪除,脣-放射傳輸函數之0大致上被聲門極點之一所對消。如此,第7a圖之系統可減少呈第7b圖之全極點濾波器模型,具有一增益階段77、一前傳徑路78、一回授徑路79、及一加法階段80。於回授徑路79,有預測濾波器81,第7b圖所示全來源模型合成系統可使用z域函數表示如下:
S(z)=g/(1-A(z)).X(z)
此處g表示增益,A(z)為藉LPC分析測定之預測濾波器,X(z)為激勵信號及S(z)為合成語音輸出信號。
第7c圖及第7d圖顯示使用線性來源系統模型,有聲語音及無聲語音合成之圖解時域說明。本系統及如上方程式中之激勵參數為未知,必須由語音樣本的有限集合判定。A(z)係數係使用輸入信號之線性預測分析及濾波器係數之量化得之。於第p階前傳線性預測器中,語音序列的目前樣本係由p個過去樣本之線性組合預測。預測器係數可藉眾所周知之演繹法則諸如Levinson-Durbin演繹法則或通常為自動校正法或反映法判定。所得濾波器係數之量化通常係於LSF域或於ISP域藉多階段向量量化執行。
第7e圖示例顯示LPC分析區塊諸如第1a圖之510之進一步細節實施例。音訊信號係輸入濾波器判定區塊,其決定濾波器資訊A(z)。本資訊輸出作為解碼器要求之短期預測資訊。於第4a圖之實施例中,亦即可能需要短期預測資訊用於脈衝編碼器輸出信號。但只需要於線84之預測誤差信號,無需輸出短期預測資訊。雖言如此,實際預測濾波器85要求該短期預測資訊。於減法器86中,輸入音訊信號之目前樣本,扣掉目前樣本之預測值,故對本樣本,於線84產生預測誤差信號。此種預測誤差信號樣本序列圖解顯示於第7c圖或第7d圖,此處為求清晰並未顯示任何有關AC/DC組件等。因此,第7c圖可考慮為一種已整流脈衝狀信號。
結果,將就第6圖討論藉合成分析CELP編碼器,俾便示例說明施加於本演繹法則之修改,如第10圖至第13圖所示。本CELP編碼器之細節討論於「語音編碼:輔導綜論」,Andreas Spaniels,IEEE議事錄,82卷,第10期,1994年10月,1541-1582頁。如第6圖示例顯示之CELP編碼器包括一長期預測組件60及一短期預測組件62。此外,使用一碼簿指示於64。感官式加權濾波器W(z)實施於66,誤差最小化控制器提供於68。s(n)為時域輸入信號。於感官式加權後,已加權信號輸入減法器69,其計算於區塊66之輸出端之已加權合成信號與原先已加權信號sw
(n)間之誤差。通常求出短期預測A(z),其係數如第7e圖指示藉LPC分析階段量化。長期預測資訊AL
(z)包括長期預測增益g及向量量化指數,亦即碼簿參考數值係於第7e圖指示為10a之LPC分析階段輸出端之該預測誤差信號計算。然後CELP演繹法則使用例如高斯序列之碼簿,編碼於短期預測及長期預測後所得殘餘信號。ACELP演繹法則具有特定代數設計碼簿,此處「A」表示「代數」。
碼簿可含有更多或更少個向量,此處各個向量長度為數個樣本。增益因數g定標碼向量,已增益的碼藉長期預測合成濾波器及短期預測合成濾波器濾波。選定「最佳」碼向量,使得於減法器69輸出端之已感官式加權均方誤差為最小化。於CELP之搜尋過程係介入第6圖所示藉合成分析最佳化進行。
用於特定情況,當一訊框為無聲語音與有聲語音之混合物,或當出現語音超過音樂時,TCX編碼較為適合編碼於LPC域之激勵信號。TCX編碼過程直接處理於時域之激勵信號,而未假設任何激勵產生。則TCX比CELP編碼更全面性,而非限於激勵之有聲或無聲來源模型。TCX仍然為使用線性預測濾波器之來源-濾波器模型編碼,用於模型化語音狀信號之共振峰。
於AMR-WB+狀編碼中,如由AMR-WB+之說明已知進行不同TCX模式與ACELP間之選擇。TCX模式之差異在於對不同模式之逐區塊快速傅立葉變換長度為不同,藉藉合成分析辦法或藉直接「前饋」模式可選出最佳模式。
如第2a圖及第2b圖之討論,共用預處理階段100較佳包括一聯合多頻道(環繞/聯合立體聲裝置)101,此外包括一頻寬擴展階段102。相對應地,解碼器包括一頻寬擴展階段701及一隨後連結的聯合多頻道階段702。較佳聯合多頻道階段101就編碼器而言係連結於頻寬擴展階段102之前;而於解碼器端,相對於信號處理方向,頻寬擴展階段701係連結於聯合多頻道階段702之前。但另外,共用預處理階段可包括未隨後連結頻寬擴展階段之一聯合多頻道階段或無連結的聯合多頻道階段之一頻寬擴展階段。
於編碼器端101a、101b及解碼器端702a及702b之聯合多頻道階段之較佳實例顯示於第8圖之上下文。一個原先輸入頻道係輸入降混器101a,使得降混器產生K個所傳送的頻道,此處數目K係大於或等於1而小於E。
較佳E個輸入頻道係輸入聯合多頻道參數分析器101b,其產生參數資訊。本參數資訊較佳係藉不同編碼及隨後之霍夫曼編碼或另外藉隨後算術編碼進行熵編碼。區塊101b輸出之已編碼參數信號傳送至參數解碼器702b,其可為第2b圖之項目702之一部分。參數解碼器702b解碼所傳輸之參數資訊,且將已解碼之參數資訊前傳入升混器702a。升混器702a接收K個所傳輸之頻道,及產生L個輸出頻道,此處數目L係大於K而小於或等於E。
如由BCC技術已知,或如MPEG環繞標準已知且詳細說明,參數資訊可包括頻道間位準差、頻道間時間差、頻道間相位差及/或頻道間相干性測量值。所傳輸之頻道數目對超低位元速率應用可為單一單聲道,或可包括可相容的立體聲應用,或可包括可相容的立體聲信號,亦即兩個頻道。典型地,E個輸入頻道可為5個或甚至更高。另外,如於空間音訊物件編碼(SAOC)之上下文已知,E個輸入頻道也可為E個音訊物件。
於一個實施例中,降混器執行原先E個輸入頻道之已加權加法或未加權加法或E個輸入音訊物件的加法。於音訊物件作為輸入頻道之情況下,聯合多頻道參數分析器101b將計算音訊物件參數,諸如較佳對各個時間部分,且又更佳對各個頻帶計算音訊物件間之相關性矩陣。為了達成此項目的,全頻率範圍可分割成至少10個頻帶及較佳32個或64個頻帶。
第9圖示例顯示用於實施第2a圖之頻寬擴展階段102及第2b圖之相對應的頻寬擴展階段701之較佳實施例。於編碼器端,頻寬擴展區塊102較佳包括一低通濾波區塊102b及一高頻帶分析器102a。輸入頻寬擴展區塊102之原先音訊信號經低通濾波來產生低頻帶信號,及然後輸入編碼分支及/或開關。低通濾波器具有典型於3 kHz至10 kHz之範圍之節段頻率。使用SBR可超過此一範圍。此外,頻寬擴展區塊102額外包括一高頻帶分析器用於計算頻寬擴展參數諸如頻譜封包參數資訊、雜訊底位準參數資訊、反相濾波參數資訊、於高頻帶之某些諧波線相關之其它參數資訊及額外參數,諸如於頻帶複製之相關章節(ISO/IEC 14496-3:2005,第3部分,章節4.6.18)之MPEG-4標準之細節討論。
於解碼器端,頻寬擴展區塊701包括一修補器701a、一調整器701b及一組合器701c。組合器701c組合已解碼低頻帶信號及由調整器701b所輸出之已重建且已調整高頻帶信號。調整器701b之輸入信號係由修補器提供,修補器係操作來諸如藉頻譜帶複製或通常藉頻寬擴展而由低頻帶信號導算出高頻帶信號。修補器701a所執行之修補可為以諧波方式或非諧波方式執行的修補。修補器701a所產生之信號隨後使用所傳輸之參數頻寬擴展資訊,藉調整器701b調整。
如第8圖及第9圖指示,於較佳實施例中,所述區塊具有模式控制輸入信號。該模式控制輸入信號係由決策階段300之輸出信號導算出。於此種較佳實施例中,相對應區塊之特性可自適應於該決策階段之輸出信號,換言之於較佳實施例中,對該音訊信號之某個時間部分判定為語音或判定為音樂。較佳模式控制只與此等區塊之功能中之一者或多者相關,而非關該等區塊之全部功能。舉例言之,決策可只影響修補器701a,但不影響第9圖之其它區塊;或可只影響第8圖之聯合多頻道參數分析器101b而不影響第8圖之其它區塊。本實施例為較佳因而藉於共用預處理階段提供彈性,獲得較高彈性及較高品質且較低位元速率之輸出信號。但另一方面,對兩種信號於共用預處理階段使用演繹法則,允許實施有效編碼/解碼方案。
第10a圖及第10b圖顯示決策階段300之兩個不同實施例。第10a圖指示開環決策。此處,於決策階段之信號分析器300a有某些法則來判定輸入信號之某個時間部分或某個頻率部分是否具有特性,該等特性要求本信號部分係藉第一編碼分支400或藉第二編碼分支500編碼。為了達成此項目的,信號分析器300a可分析輸入共用預處理階段之音訊輸入信號;或可分析由該共用預處理階段所輸出之音訊信號,亦即音訊中間信號;或可分析共用預處理階段內部之一個中間信號諸如降混器輸出信號,其可為單聲信號或可如第8圖指示有k個頻道之信號。於輸出端,信號分析器300a產生切換決策用於控制編碼器端之開關200及解碼器端之相對應開關600或組合器600。
另外,決策階段300可執行閉環決策,表示兩個編碼分支於該音訊信號的同一部分執行任務,二已編碼信號係藉相對應解碼分支300c、300d解碼。裝置300c及300d之輸出輸入比較器300b,比較器比較解碼裝置之輸出信號與例如音訊中間信號之相對應部分。然後依據代價函數諸如每個分支之信號對雜訊比,做出切換決策。此種閉環決策比開環決策具有較高複雜度,但此複雜度只存在於編碼器端,解碼器不具有來自於此種方法之任何缺點,原因在於解碼器可優異地使用本編碼決策之輸出信號。因此,由於應用用途之複雜度及品質考量,以閉環模式為佳,其中解碼器之複雜度不成問題,諸如於廣播應用,只有少數編碼器但有大量解碼器,此外必須智慧型且廉價。
藉比較器300b所應用之代價函數可為品質面相推動的代價函數,或可為雜訊面相推動之代價函數,或可為位元速率面相推動之代價函數,或可為由位元速率、品質、雜訊(由編碼假信號所導入,特別由量化所導入)等之任一種組合所推動之組合代價函數。
較佳,第一編碼分支及/或第二編碼分支包括於編碼器端之一時間翹曲函數及於解碼器端之相對應時間翹曲函數。於一個實施例中,第一編碼分支包含一時間翹曲器模組,用於依據部分音訊信號計算可變翹曲特性;一再取樣器,用於根據測定之翹曲特性再取樣;一時域/頻域變換器,及一熵編碼器,用於將時域/頻域變換結果變換成已編碼表示法。可變翹曲特性含括於已編碼音訊信號。本資訊係由時間翹曲加強解碼分支讀取及處理,最終具有於非翹曲時間標度之一輸出信號。例如,解碼分支執行熵解碼、解量化及由頻域變換返回時域。於時域,可應用解翹曲,接著為相對應的再取樣運算,來最終獲得具有非翹曲時間標度之一離散音訊信號。
依據本發明方法之某些實務要求,本發明方法可於硬體或軟體實施。該實施可使用數位儲存媒體特別為具有電子可讀取控制信號儲存於其上之碟片、DVD或CD,該等信號與可規劃電腦系統協力合作因而執行本發明方法。因此大致上本發明為一種有程式碼儲存於機器可讀取載體上之一種電腦程式產品,當該電腦程式產品於電腦上跑時,該程式碼可運算用於執行本發明方法。換言之,本發明方法為具有程式碼之一種電腦程式,用於當該電腦程式於電腦上跑時執行本發明方法中之至少一者。
本發明之已編碼音訊信號可儲存於數位儲存媒體上,或可傳輸至傳輸媒體上,諸如無線傳輸媒體或有線傳輸媒體諸如網際網路。
前文說明之實施例僅供舉例說明本發明之原理。須瞭解熟諳技藝人士顯然易知此處所述配置及細節之各項修改及變化。但意圖本發明僅受隨附之申請專利範圍所限而非受舉例說明及解釋此處實施例所呈現之特定細節所限。
10a...LPC分析階段
60...長期預測組件
62...短期預測組件
64...碼簿
66...感官式加權濾波器W(z)
68...誤差最小化控制器
69...減法器
70...全極點濾波器
72...聲門模型
74...脣放射模型
76...頻譜校正因數
77...增益階段
78...前傳徑路
79...回授徑路
80...加法階段
81...預測濾波器
84...預測誤差信號
85...實際預測濾波器
86...減法器
99...音訊輸入信號
100...共用預處理步驟
101...環繞/聯合立體聲區塊、聯合多頻道階段
101a...降混器
101b...多頻道參數計算器、聯合多頻道參數分析器
102...頻寬擴展分析階段、頻寬擴展階段
102a...高頻帶分析器
102b...低通濾波區塊
195...音訊中間信號
200...第一開關、開關
300...決策階段、控制器
300a...信號分析器
300b...比較器
300c-d...解碼分支、解碼裝置
400...第一編碼分支、頻率編碼部
410...頻譜變換區塊、頻譜變換階段
420...頻譜音訊編碼器
421...量化/編碼階段
424...位元流
430...頻譜音訊解碼器
434...位元流
440...時域變換器
450...第一解碼分支
500...第二編碼分支、LPC域編碼部
510...LPC階段
520...激勵編碼器
530...激勵解碼器
540...LPC合成階段
550...第二解碼分支
600...開關、解碼器端開關
601...模式檢測區塊
607、607a-c...交叉衰減區塊、交叉衰減分支
607a、607b...加權器
607c...加法器
609...作圖
699...已解碼音訊中間信號、組合信號
700...共用後處理階段
701...頻寬擴展區塊、頻寬擴展階段
701a...修補器
701b...調整器
701c...組合器
702...聯合立體聲/環繞處理階段、聯合多頻道階段
702a...升混器
702b...參數解碼器
799...已解碼音訊信號、已解碼輸出信號、組合信號
800...位元流多工器
900...位元流解多工器
第1a圖為根據本發明之第一面相之編碼方案之方塊圖;第1b圖為根據本發明之第一面相之解碼方案之方塊圖;第2a圖為根據本發明之第二面相之編碼方案之方塊圖;第2b圖為根據本發明之第二面相之解碼方案之方塊圖;第3a圖示例顯示根據本發明之又一面相之編碼方案之方塊圖;第3b圖示例顯示根據本發明之又一面相之解碼方案之方塊圖;第4a圖示例顯示有一開關位於該編碼分支之前之一方塊圖;第4b圖示例顯示該開關係位於編碼該等分支之後之一編碼方案之方塊圖;第4c圖示例顯示較佳組合器實施例之方塊圖;第5a圖示例顯示時域語音節段呈準週期性或脈衝狀信號節段之波形圖;第5b圖示例顯示第5a圖之節段之頻譜;第5c圖示例顯示無聲語音之一時域語音節段作為穩態節段及雜訊狀節段之實例;第5d圖示例顯示第5c圖之時域波形圖之頻譜;第6圖示例顯示藉合成分析之CELP編碼器之方塊圖;第7a至7d圖示例顯示有聲/無聲激勵信號作為脈衝狀信號及穩態/雜訊狀信號之實例;第7e圖示例顯示提供短期預測資訊及預測誤差信號之編碼器端LPC階段;第8圖示例顯示根據本發明之實施例一種聯合多頻道演繹法則之方塊圖;第9圖示例顯示頻寬擴展演繹法則之較佳實施例;第10a圖示例顯示當開關執行開環決策時之細節說明;及第10b圖示例顯示當開關於閉環決策模型運算時之實施例。
100‧‧‧共用預處理階段
200‧‧‧切換階段
300‧‧‧決策階段、控制器
400‧‧‧第一編碼分支、頻率編碼部
410‧‧‧頻譜變換區塊
420‧‧‧頻譜音訊編碼器
500‧‧‧第二編碼分支、LPC域編碼部
510‧‧‧LPC階段
520‧‧‧激勵編碼器
Claims (26)
- 一種音訊編碼器,用於產生編碼音訊信號,該音訊編碼器包含:一第一編碼元件,用於根據一第一編碼演繹法則編碼一音訊中間信號,該第一編碼演繹法則具有一資訊匯集模型,且於一第一編碼元件輸出信號中產生表示該音訊中間信號之編碼頻譜資訊;一第二編碼元件,用於根據一第二編碼演繹法則編碼該音訊中間信號,該第二編碼演繹法則具有一資訊來源模型,且於一第二編碼元件輸出信號中產生表示該音訊中間信號之用於該資訊來源模型之編碼參數;及一共用預處理級,用於預處理一音訊輸入信號來獲得該音訊中間信號,其中該共用預處理級係操作來處理該音訊輸入信號,使得該音訊中間信號為該音訊輸入信號之壓縮版本。
- 如請求項1之音訊編碼器,進一步包含於進入該等元件之多個輸入端或該等元件之多個輸出端,連結於該第一編碼元件與第二編碼元件間之一切換階段,該切換階段係由一切換控制信號控制。
- 如請求項2之音訊編碼器,進一步包含一決策階段,用於依時間或頻率分析該音訊輸入信號或該音訊中間信號或於該共用預處理級之一中間信號,俾便找出欲於一編碼器輸出信號中傳輸之一信號之時間或頻率部分,當作由該第一編碼元件所產生之該編碼輸出信號或由該 第二編碼元件產生之該編碼輸出信號。
- 如前述請求項中之一項之音訊編碼器,其中該共用預處理級係操作來對未含括於該音訊中間信號之一第一部分及一不同的第二部分中之一部分音訊輸入信號,計算共用預處理參數,且將該等預處理參數之一編碼表示法導入該編碼輸出信號,其中該已編碼輸出信號額外包含用來表示該音訊中間信號之一第一部分之一第一編碼元件輸出信號及用來表示該音訊中間信號之第二部分之一第二編碼元件輸出信號。
- 如請求項1之音訊編碼器,其中該共用預處理級包含一聯合多頻道模組,該聯合多頻道模組包含:一降混器,用於產生大於或等於1而小於輸入該降混器之頻道數目之降混的頻道數目;及一多頻道參數計算器,用於計算多頻道參數,因而使用該等多頻道參數及降混的頻道數目,原先頻道之一表示法是可執行的。
- 如請求項5之音訊編碼器,其中該等多頻道參數為頻道間位準差參數、頻道間相關性或同調性參數、頻道間相位差參數、頻道間時間差參數、音訊物件參數或方向或擴散度參數。
- 如請求項1之音訊編碼器,其中該共用預處理級包含一頻寬擴展分析階段,包含:一頻帶限制裝置,用於剔除於一輸入信號中之一高頻帶且用於產生一低頻帶信號;及 一參數計算器,用於對由該頻帶限制裝置所剔除之高頻帶計算頻寬擴展參數,其中該參數計算器使得使用所計算之參數及該低頻帶信號,一頻寬擴展的輸入信號之重建是可執行的。
- 如請求項1之音訊編碼器,其中該共用預處理級包括一聯合多頻道模組、一頻寬擴展階段、及用以於該第一編碼元件與該第二編碼元件間切換之一開關,其中該聯合多頻道階段之一輸出端係連結至該頻寬擴展階段之一輸入端,及該頻寬擴展階段之一輸出端係連結至該開關之一輸入端,該開關之一第一輸出端係連結至該第一編碼元件之一輸入端,及該開關之一第二輸出端係連結至該第二編碼元件之一輸入端,及該等編碼元件之輸出端係連結至一位元流形成器。
- 如請求項3之音訊編碼器,其中該決策階段係操作來分析一決策階段輸入信號用於搜尋具有比該第二編碼元件於某個位元速率更佳的信號對雜訊比之欲藉該第一編碼元件編碼的部分;其中該決策階段係操作於不含一編碼及再度解碼信號時基於一開放迴圈演繹法則來分析,或使用一編碼及再度解碼信號而基於一封閉迴圈演繹法則來分析。
- 如請求項3之音訊編碼器,其中該共用預處理級具有特定多項功能,以及其中至少一項功能可藉一決策階段輸出信號調適,及其中至少一項功能係不可調適的。
- 如請求項1之音訊編碼器,其中該第一編碼元件進一步包含一時間翹曲器模組,用於計算取決於該音訊信號之一部分之一可變翹曲特性,其中該第一編碼元件進一步包含一再取樣器,用於根據一已測定之翹曲特性再取樣,及其中該第一編碼元件進一步包含一時域/頻域變換器及一熵編碼器,用於將該時域/頻域變換結果變換成一編碼表示法,其中該可變翹曲特性係含括於該編碼音訊信號。
- 如請求項1之音訊編碼器,其中該共用預處理級係操作來輸出至少兩個音訊中間信號,及其中對於各該音訊中間信號,設置有該第一及第二編碼元件及用以於該等二元件間切換之一開關。
- 一種音訊編碼方法,用於產生編碼音訊信號,該方法包含:根據一第一編碼演繹法則編碼一音訊中間信號,該第一編碼演繹法則具有一資訊匯集模型,且於一第一輸出信號中產生表示該音訊中間信號之編碼頻譜資訊;根據一第二編碼演繹法則編碼一音訊中間信號,該第二編碼演繹法則具有一資訊來源模型,且於一第二輸出信號中,產生表示該音訊中間信號之用於該資訊來源模型之編碼參數;及共用預處理一音訊輸入信號來獲得該音訊中間信 號,其中在該共用預處理之步驟中,該音訊輸入信號係被處理,而使得該音訊中間信號為該音訊輸入信號之壓縮版本,其中該編碼音訊信號對該音訊信號之某個部分包括第一輸出信號或第二輸出信號。
- 一種音訊解碼器,用於解碼編碼音訊信號,該音訊解碼器包含:一第一解碼元件,用於解碼根據具有一資訊匯集模型之一第一編碼演繹法則編碼之一編碼信號;一第二解碼元件,用於解碼根據具有一資訊來源模型之一第二編碼演繹法則編碼之一編碼音訊信號;一組合器,用於組合得自該第一解碼元件及該第二解碼元件之輸出信號而獲得一組合的信號;及一共用後處理級,用於處理該組合的信號,使得該共用後處理級之一解碼輸出信號為該組合的信號之一擴展版本。
- 如請求項14之音訊解碼器,其中該組合器包含一開關,用於根據外顯地或內隱地含括於該編碼音訊信號之一模式指示,切換得自該第一解碼元件及該第二解碼元件之解碼信號,使得該組合音訊信號為一連續的離散時域信號。
- 如請求項14或15之音訊解碼器,其中該組合器包含一交叉衰減器,用來於一切換事件之情況下,於一時域交叉衰減區內部,於一解碼元件之一輸出與另一解碼元件之 一輸出間交叉衰減。
- 如請求項16之音訊解碼器,其中該交叉衰減器係操作來加權於該交叉衰減區內部之該等解碼元件輸出信號中之至少一者,以及將至少一個已加權信號加至得自該另一編碼元件之一已加權信號或一未加權信號,其中用於加權該至少一個信號之權值於該交叉衰減區為可變。
- 如請求項14之音訊解碼器,其中該共用預處理級包含一聯合多頻道解碼器或一頻寬擴展處理器之至少一者。
- 如請求項18之音訊解碼器,其中該聯合多頻道解碼器包含一參數解碼器及由一參數解碼器輸出控制之一升混器。
- 如請求項19之音訊解碼器,其中該頻寬擴展處理器包含用於形成一高頻帶信號之一修補器、用於調整該高頻帶信號之一調整器、及用於將調整的該高頻帶信號與一低頻帶信號組合來獲得一頻寬擴展信號之一組合器。
- 如請求項14之音訊解碼器,其中該第一解碼元件包括一頻域音訊解碼器,及該第二解碼元件包括一時域語音解碼器。
- 如請求項14之音訊解碼器,其中該第一解碼元件包括一頻域音訊解碼器,及該第二解碼元件包括一基於LPC之解碼器。
- 如請求項14之音訊解碼器,其中該共用後處理級具有特定數目之功能,及其中 至少一項功能係可藉一模式檢測函數調適,及其中至少一項功能係不可調適。
- 一種音訊解碼方法,用於解碼編碼音訊信號,該方法包含:解碼根據具有一資訊匯集模型之一第一編碼演繹法則編碼之一編碼信號;解碼根據具有一資訊來源模型之一第二編碼演繹法則編碼之一編碼音訊信號;組合得自該第一解碼元件及該第二解碼元件之輸出信號而獲得一組合的信號;及共用處理該組合的信號使得共用後處理級之一解碼輸出信號為該組合的信號之一擴展版本。
- 一種電腦程式產品,用來於在一電腦上運行時,執行如請求項13或24之方法。
- 一種電腦可讀儲存媒體,其上儲存有編碼音訊信號,該信號包含:一第一編碼元件輸出信號,表示根據一第一編碼演繹法則編碼的一音訊信號之一第一部分,該第一編碼演繹法則具有一資訊匯集模型,該第一編碼元件輸出信號具有表示該音訊信號之編碼頻譜資訊;一第二編碼元件輸出信號,表示與該輸出信號之第一部分不同的一音訊信號之一第二部分,該第二部分係根據一第二編碼演繹法則編碼,該第二編碼演繹法則具有一資訊來源模型,該第二編碼元件輸出信號具有表示 中間信號之用於該資訊來源模型之編碼參數;及表示該音訊信號與該音訊信號之一擴展版本間之差異之共用預處理參數。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7986108P | 2008-07-11 | 2008-07-11 | |
EP08017662 | 2008-10-08 | ||
EP09002272A EP2144231A1 (en) | 2008-07-11 | 2009-02-18 | Low bitrate audio encoding/decoding scheme with common preprocessing |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201007702A TW201007702A (en) | 2010-02-16 |
TWI463486B true TWI463486B (zh) | 2014-12-01 |
Family
ID=40750900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098121854A TWI463486B (zh) | 2008-07-11 | 2009-06-29 | 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 |
Country Status (19)
Country | Link |
---|---|
US (1) | US8804970B2 (zh) |
EP (2) | EP2144231A1 (zh) |
JP (1) | JP5325294B2 (zh) |
KR (3) | KR101645783B1 (zh) |
CN (1) | CN102124517B (zh) |
AR (1) | AR072423A1 (zh) |
AT (1) | ATE540401T1 (zh) |
AU (1) | AU2009267432B2 (zh) |
BR (4) | BR122021017391B1 (zh) |
CA (1) | CA2730237C (zh) |
CO (1) | CO6341673A2 (zh) |
ES (1) | ES2380307T3 (zh) |
HK (1) | HK1156723A1 (zh) |
MX (1) | MX2011000383A (zh) |
PL (1) | PL2311035T3 (zh) |
RU (1) | RU2483365C2 (zh) |
TW (1) | TWI463486B (zh) |
WO (1) | WO2010003617A1 (zh) |
ZA (1) | ZA201009209B (zh) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102144259B (zh) * | 2008-07-11 | 2015-01-07 | 弗劳恩霍夫应用研究促进协会 | 用于产生带宽扩展输出数据的装置和方法 |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
BR122021009256B1 (pt) * | 2008-07-11 | 2022-03-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
ES2396927T3 (es) * | 2008-07-11 | 2013-03-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para decodificar una señal de audio codificada |
KR101797033B1 (ko) * | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
JP5814341B2 (ja) | 2010-04-09 | 2015-11-17 | ドルビー・インターナショナル・アーベー | Mdctベース複素予測ステレオ符号化 |
KR101697550B1 (ko) | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
CN103282959B (zh) * | 2010-10-25 | 2015-06-03 | 沃伊斯亚吉公司 | 低位速率和短延迟地编码普通音频信号 |
US9037456B2 (en) | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
EP2600343A1 (en) | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
CN103548080B (zh) * | 2012-05-11 | 2017-03-08 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
TWI612518B (zh) * | 2012-11-13 | 2018-01-21 | 三星電子股份有限公司 | 編碼模式決定方法、音訊編碼方法以及音訊解碼方法 |
CN107256709B (zh) | 2012-11-15 | 2021-02-26 | 株式会社Ntt都科摩 | 音频编码装置 |
WO2014096236A2 (en) * | 2012-12-19 | 2014-06-26 | Dolby International Ab | Signal adaptive fir/iir predictors for minimizing entropy |
MY173781A (en) | 2013-01-08 | 2020-02-20 | Dolby Int Ab | Model based prediction in a critically sampled filterbank |
EP2951821B1 (en) | 2013-01-29 | 2017-03-01 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for coding mode switching compensation |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
JP6360165B2 (ja) | 2013-06-21 | 2018-07-18 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 快適ノイズの適応スペクトル形状を生成するための装置及び方法 |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
EP2830053A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
EP2830051A3 (en) * | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
ES2839086T3 (es) | 2013-10-18 | 2021-07-05 | Fraunhofer Ges Forschung | Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido |
EP3806094A1 (en) | 2013-10-18 | 2021-04-14 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
ES2805744T3 (es) | 2013-10-31 | 2021-02-15 | Fraunhofer Ges Forschung | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo |
KR101984117B1 (ko) | 2013-10-31 | 2019-05-31 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법 |
PL3069338T3 (pl) * | 2013-11-13 | 2019-06-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
US9564136B2 (en) * | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
JP6486962B2 (ja) | 2014-04-17 | 2019-03-20 | ヴォイスエイジ・コーポレーション | 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器 |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
CN104269173B (zh) * | 2014-09-30 | 2018-03-13 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
EP3067886A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CN106205628B (zh) | 2015-05-06 | 2018-11-02 | 小米科技有限责任公司 | 声音信号优化方法及装置 |
SG11201806256SA (en) * | 2016-01-22 | 2018-08-30 | Fraunhofer Ges Forschung | Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision |
EP3276620A1 (en) * | 2016-07-29 | 2018-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis |
DE102016214693B4 (de) | 2016-08-08 | 2018-05-09 | Steinbeiss-Forschungszentrum, Material Engineering Center Saarland | Elektrisch leitendes Kontaktelement für einen elektrischen Steckverbinder, elektrischer Steckverbinder, der ein solches Kontaktelement umfasst, und Verfahren zum Einschließen eines Hilfsstoffes unter der Kontaktoberfläche eines solchen Kontaktelements |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
KR102623514B1 (ko) * | 2017-10-23 | 2024-01-11 | 삼성전자주식회사 | 음성신호 처리장치 및 그 동작방법 |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
KR20230110842A (ko) | 2017-11-17 | 2023-07-25 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
CN109036457B (zh) | 2018-09-10 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
US20200402522A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
WO2021136344A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW332889B (en) * | 1995-10-26 | 1998-06-01 | Sony Co Ltd | Reproducing, decoding and synthesizing speech signal |
TW380246B (en) * | 1996-10-23 | 2000-01-21 | Sony Corp | Speech encoding method and apparatus and audio signal encoding method and apparatus |
US6447490B1 (en) * | 1997-08-07 | 2002-09-10 | James Zhou Liu | Vagina cleaning system for preventing pregnancy and sexually transmitted diseases |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
TW591606B (en) * | 2001-11-14 | 2004-06-11 | Matsushita Electric Ind Co Ltd | Encoding device, decoding device, and system thereof |
US20050261900A1 (en) * | 2004-05-19 | 2005-11-24 | Nokia Corporation | Supporting a switch between audio coder modes |
TW200623027A (en) * | 2004-08-26 | 2006-07-01 | Nokia Corp | Processing of encoded signals |
US20060173675A1 (en) * | 2003-03-11 | 2006-08-03 | Juha Ojanpera | Switching between coding schemes |
US20070100607A1 (en) * | 2005-11-03 | 2007-05-03 | Lars Villemoes | Time warped modified transform coding of audio signals |
US20080147414A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3317470B2 (ja) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
US6311153B1 (en) * | 1997-10-03 | 2001-10-30 | Matsushita Electric Industrial Co., Ltd. | Speech recognition method and apparatus using frequency warping of linear prediction coefficients |
CN1192355C (zh) * | 1999-11-16 | 2005-03-09 | 皇家菲利浦电子有限公司 | 宽带音频传输系统 |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
WO2003091989A1 (en) * | 2002-04-26 | 2003-11-06 | Matsushita Electric Industrial Co., Ltd. | Coding device, decoding device, coding method, and decoding method |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CA2566372A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding models |
US8121836B2 (en) * | 2005-07-11 | 2012-02-21 | Lg Electronics Inc. | Apparatus and method of processing an audio signal |
US7742913B2 (en) * | 2005-10-24 | 2010-06-22 | Lg Electronics Inc. | Removing time delays in signal paths |
JP2009526263A (ja) * | 2006-02-07 | 2009-07-16 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
KR101145578B1 (ko) * | 2006-06-30 | 2012-05-16 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 동적 가변 와핑 특성을 가지는 오디오 인코더, 오디오 디코더 및 오디오 프로세서 |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
KR101452722B1 (ko) * | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
-
2009
- 2009-02-18 EP EP09002272A patent/EP2144231A1/en not_active Withdrawn
- 2009-06-29 TW TW098121854A patent/TWI463486B/zh active
- 2009-06-30 AR ARP090102437A patent/AR072423A1/es active IP Right Grant
- 2009-07-06 ES ES09793882T patent/ES2380307T3/es active Active
- 2009-07-06 RU RU2011100133/08A patent/RU2483365C2/ru active
- 2009-07-06 MX MX2011000383A patent/MX2011000383A/es active IP Right Grant
- 2009-07-06 CN CN2009801270946A patent/CN102124517B/zh active Active
- 2009-07-06 WO PCT/EP2009/004873 patent/WO2010003617A1/en active Application Filing
- 2009-07-06 AT AT09793882T patent/ATE540401T1/de active
- 2009-07-06 JP JP2011517014A patent/JP5325294B2/ja active Active
- 2009-07-06 KR KR1020137017066A patent/KR101645783B1/ko active IP Right Grant
- 2009-07-06 BR BR122021017391-5A patent/BR122021017391B1/pt active IP Right Grant
- 2009-07-06 AU AU2009267432A patent/AU2009267432B2/en active Active
- 2009-07-06 KR KR1020137001610A patent/KR101346894B1/ko active IP Right Grant
- 2009-07-06 PL PL09793882T patent/PL2311035T3/pl unknown
- 2009-07-06 BR BR122020025776-8A patent/BR122020025776B1/pt active IP Right Grant
- 2009-07-06 EP EP09793882A patent/EP2311035B1/en active Active
- 2009-07-06 BR BR122021017287-0A patent/BR122021017287B1/pt active IP Right Grant
- 2009-07-06 BR BR122020025711-3A patent/BR122020025711B1/pt active IP Right Grant
- 2009-07-06 KR KR1020117003071A patent/KR20110040899A/ko active Application Filing
- 2009-07-06 CA CA2730237A patent/CA2730237C/en active Active
-
2010
- 2010-12-22 ZA ZA2010/09209A patent/ZA201009209B/en unknown
- 2010-12-29 CO CO10164064A patent/CO6341673A2/es active IP Right Grant
-
2011
- 2011-01-11 US US13/004,453 patent/US8804970B2/en active Active
- 2011-10-18 HK HK11111083.2A patent/HK1156723A1/xx unknown
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW332889B (en) * | 1995-10-26 | 1998-06-01 | Sony Co Ltd | Reproducing, decoding and synthesizing speech signal |
TW380246B (en) * | 1996-10-23 | 2000-01-21 | Sony Corp | Speech encoding method and apparatus and audio signal encoding method and apparatus |
US6447490B1 (en) * | 1997-08-07 | 2002-09-10 | James Zhou Liu | Vagina cleaning system for preventing pregnancy and sexually transmitted diseases |
TW591606B (en) * | 2001-11-14 | 2004-06-11 | Matsushita Electric Ind Co Ltd | Encoding device, decoding device, and system thereof |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
US20060173675A1 (en) * | 2003-03-11 | 2006-08-03 | Juha Ojanpera | Switching between coding schemes |
US20050261900A1 (en) * | 2004-05-19 | 2005-11-24 | Nokia Corporation | Supporting a switch between audio coder modes |
TW200623027A (en) * | 2004-08-26 | 2006-07-01 | Nokia Corp | Processing of encoded signals |
US20070100607A1 (en) * | 2005-11-03 | 2007-05-03 | Lars Villemoes | Time warped modified transform coding of audio signals |
US20080147414A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676611B2 (en) | Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains | |
TWI463486B (zh) | 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 | |
TWI441167B (zh) | 用於編碼音訊信號或解碼已編碼音訊信號之裝置及方法、及相關電腦程式 | |
RU2520402C2 (ru) | Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением | |
EP2144171B1 (en) | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |