TWI416507B - 用以基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置及方法和與其相關之音訊解碼器及電腦程式 - Google Patents

用以基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置及方法和與其相關之音訊解碼器及電腦程式 Download PDF

Info

Publication number
TWI416507B
TWI416507B TW099110102A TW99110102A TWI416507B TW I416507 B TWI416507 B TW I416507B TW 099110102 A TW099110102 A TW 099110102A TW 99110102 A TW99110102 A TW 99110102A TW I416507 B TWI416507 B TW I416507B
Authority
TW
Taiwan
Prior art keywords
representation
frequency
patch
value
frequency domain
Prior art date
Application number
TW099110102A
Other languages
English (en)
Other versions
TW201044379A (en
Inventor
Frederik Nagel
Max Neuendorf
Nikolaus Rettelbach
Jeremie Lecomte
Markus Multrus
Bernhard Grill
Sascha Disch
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201044379A publication Critical patent/TW201044379A/zh
Application granted granted Critical
Publication of TWI416507B publication Critical patent/TWI416507B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Stored Programmes (AREA)

Description

用以基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置及方 法和與其相關之音訊解碼器及電腦程式 技術領域
依據本發明的實施例有關於一種基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置。依據本發明的其它實施例有關於一種基於輸入信號表示型態產生擴充頻寬信號之表示型態的方法。依據本發明的進一步實施例有關於一種用以執行此方法的電腦程式。
依據本發明的一些實施例有關於頻帶複製內之新的修補方法。
發明背景
儲存及傳輸音訊信號經常受到嚴格的位元率限制。這些限制通常透過一信號的編碼來解決。過去,當僅可得一極低位元率時,編碼器被迫使急劇減少所傳輸的音訊頻寬。現代的音訊編解碼器藉由使用頻寬擴充(BWE)方法能夠保留可聞頻寬。此類方法例如於參考文獻[1]至[12]中被予以描述。這些演算法依賴於高頻內容(HF)之一參數表示型態,此參數表示型態是透過將解碼信號之波形編碼的低頻部分(LF)移調至HF頻譜區域(「修補」)並應用一參數驅動後處理而被產生。
在習知技藝中,頻寬擴充方法,諸如頻帶複製(SBR)被用作一在基於HFR(高頻重建)的編解碼器中產生高頻信號之有效方法。
於參考文獻[1]中所描述之頻帶複製,簡要表示為“SBR”,使用一正交鏡像濾波器組(QMF)來產生HF資訊。在所謂的「修補」過程的幫助下,較低QMF頻帶被複製至較高(頻率)位置,造成LF部分資訊複製到HF部分中。產生的HF部分在採取(或調整)頻譜包絡及音調(例如使用一包絡格式化)之參數的幫助下之後適於原始HF部分。
在標準的SBR中,修補始終是藉由QMF域中的一複製操作來完成。已得知的是,這有時可造成聽覺失真,特別是如果正弦波在LF與產生之HF部分的邊界被複製於彼此近鄰內的話。因此,可以說,標準的SBR有聽覺失真的問題。再者,頻寬擴充構想的一些習知實施帶來了一相對高的複雜度。此外,在頻寬擴充構想的一些實施中,對於高修補(高伸展因數)頻譜變得非常稀少,此可導致不期望的(可聞的)音訊失真。
鑑於上述討論,本發明的一目的是創造一基於一輸入信號表示型態產生一擴充頻寬信號之表示型態的構想,這帶來複雜度與音訊品質之間的一改進折衷。
發明概要
依據本發明的實施例,本發明係與用以利用諧波頻寬擴充及非諧波頻寬擴充之組合而基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置、方法及電腦程式有關。
依據本發明的實施例創造一用以基於一輸入信號表示型態產生一擴充頻寬信號之一表示型態之裝置。該裝置包 含一相位語音編碼器,該相位語音編碼器被組態成基於該輸入信號表示型態獲得該擴充頻寬信號之一第一修補之一頻域表示型態的值。該裝置亦包含一值複製工具,該值複製工具被組態成複製該第一修補之該頻域表示型態的一組值。該值由該相位語音編碼器提供以獲得一第二修補之一頻譜表示之一組值。該第二修補與比該第一修補與更高的頻率相關聯。該裝置被組態成利用該第一修補之該頻域表示型態的該等值與該第二修補之該頻域表示型態的該等值來獲得該擴充頻寬信號的該表示型態。
本發明的關鍵思想是,一擴充頻寬信號之計算複雜度與音訊品質之間的一尤為良好的折衷是藉由將一相位語音編碼器與一值複製工具相組合來獲得,使得該擴充頻寬信號之該第一修補由該相位語音編碼器獲得,及使得該擴充頻寬信號之該第二修補是利用該值複製工具而基於該第一修補被獲得。
因此,該第一修補的內容是該輸入信號(以該輸入信號表示型態表示)之該低頻部分(LF)內容的一諧波移調版本,且該第二修補是(或表示)該第一修補之該信號內容的一(非諧波)頻移版本。因此,由於對該等值的複製在計算上比一相位語音編碼器操作簡單,該第二修補可被以相對低的計算複雜度獲得。再者,避免了該第二修補中有大的頻譜孔,因為該第一修補的頻譜值通常被充分填入(亦即,包含非零值),使得如果該第二修補僅被稀疏填入在一些情況中可產生的可聞失真被減少或被避免。
總之,本發明構想相對習知修補方法帶來了顯著優點,因為使用相位語音編碼器的諧波頻寬擴展僅被用於獲得該第一修補之該頻域表示型態、亦即頻譜的較低部分的值,而依賴於對該第一修補之一頻域表示型態之值的一複製來獲得第一修補之頻域表示型態之值的一非諧波頻寬擴充被用於較高頻率。因此,該擴充頻率部分(為一在該交越頻率之上的頻率部分)之該較低範圍(亦被指定為「第一修補」)被提供為該基本頻率範圍的一諧波擴充(亦即,在該輸入信號的頻率範圍中,該輸入信號的頻率範圍涵蓋低於該擴充頻率部分的頻率之頻率,例如在該交越頻率之下的頻率),這造成了該擴充頻寬信號的一良好聽覺印象。再者,已發現的是,使用該複製工具執行簡單產生擴充頻率部分之該較高範圍(也被指定為「第二修補」)之頻域表示型態之值並不帶來顯著的聽覺失真,因為人類聽力對該擴充頻率部分之該較高範圍(第二修補)的頻譜細節並不特別敏感。
總之,本發明構想以一相對小的計算複雜度帶來一良好的聽覺印象。
在一較佳實施例中,語音編碼器被組態成複製一組與該輸入信號表示型態之複數指定頻率子域相關聯的量值來獲得一組與該第一修補之相對應頻率子域相關聯的量值,其中該輸入信號表示型態之一成對之指定頻率子域與該第一修補之一相對應的頻率子域涵蓋(或包含)一成對之基本頻率與該基本頻率之一諧波(例如,該基本頻率之一第一諧波)。該語音編碼器亦較佳地被組態成用一預定因數(例如2) 與該輸入信號表示型態之該複數指定頻率子域相關聯的相位值相乘來獲得與該第一修補之相對應頻率子域相關聯的相位值。較佳地,該值複製工具被組態成複製一組與該第一修補之複數指定頻率子域相關聯的值來獲得一組與該第二修補之相對應頻率子域相關聯的值。該值複製工具較佳地被組態成在複製中保持相位值不變。因此,該相位語音編碼器至少近似地執行一諧波移調,而該值複製工具執行一非諧波頻移。該頻率子域例如可以是與一快速傅立葉變換(或任何相當的轉換)之係數相關聯的頻率範圍。可選擇地,該頻率子域可以是與一QMF濾波器組之個別信號相關聯的頻率範圍。典型地,該頻率子域的一寬度較之中心頻率相對小,使得頻率子域涵蓋一具有一結束頻率與一開始頻率之間的頻率比顯著小於2:1的頻寬。換言之,即使該輸入信號表示型態(例如可為FFT係數的形式或QMF濾波器組信號的形式)之該等頻率子域與該第一修補之該等頻率子域不需要相對彼此是準確諧波的,識別該輸入頻率表示型態之一頻率子域(例如,具有頻率指數k)與該第一修補之一相對應的頻率子域(例如,具有頻率指數2k)之間的一關聯通常是可能的,使得該第一修補表之該頻率子域(2k)至少近似地表示該輸入頻譜表示型態之該相對應頻率子域的一諧波頻率。
因此,一諧波移調由該相位語音編碼器執行,計入利用一相位縮放被處理的相位值。相比之下,該值複製工具僅僅執行(至少近似地)一非諧波頻移操作。
在一較佳實施例中,值複製工具被組態成複製值使得第一修補之值到第二修補之值的一普通頻移(spectral shift)(或頻移(frequency shift))被獲得。
在一較佳實施例中,相位語音編碼器被組態成獲得該第一修補之該頻域表示型態之值使得該第一修補之頻域表示型態之值表示輸入信號表示型態之一基本頻率範圍的一諧波向上轉換的版本(例如,在所謂交越頻率之下的一基本頻率範圍)。值複製工具較佳地被組態成獲得第二修補之頻域表示型態的值使得該第二修補之該頻域表示型態的值表示該第一修補之一頻移版本。因此,上面討論的優點被獲得。特別是,實施簡單而能獲得一良好聽覺印象。
在一較佳實施例中,該裝置被組態成接收脈衝編碼調變(PCM)的輸入音訊資料來向下取樣該脈衝編碼調變的輸入音訊資料以便獲得向下取樣的脈衝編碼調變的音訊資料。再者,該裝置被組態成視窗化向下取樣脈衝編碼調變的音訊資料以便獲得視窗化的輸入資料,及將視窗化的輸入資料轉換(convert)或轉變(transform)為一頻域以便獲得輸入信號表示型態。該裝置亦較佳地被組態成計算表示輸入信號表示型態之一頻率槽k(其中k是頻率槽指數)的量值ak (也用αk 指示)及相位值,及複製量值ak 來獲得表示一頻率槽之複製量值ask (也用αsk 指示),該頻率槽具有第一修補之一頻率槽指數sk,其中s是s=2的伸展因數。再者,該裝置較佳地被組態成複製及縮放與一具有該輸入信號表示型態之頻率槽指數k之頻率槽相關聯的相位值,以獲得與一 具有該第一修補之一頻率指數sk之頻率槽相關聯之複製及縮放的相位值。再者,該裝置較佳地被組態成複製與第一修補之頻域表示型態之一頻率槽k-iζ相關聯的值βk-iζ ,以獲得第二修補之頻域表示型態之值βk 。再者,該裝置較佳地被組態成將該擴充頻寬信號之該表示型態(包含該第一修補的該頻域表示型態及該第二修補的該頻域表示型態)轉換為該時域來獲得一時域表示型態,及將一合成視窗應用於該時域表示型態。使用上述構想,可能以中等計算複雜度獲得一擴充頻寬信號。該擴充頻寬信號是在該頻域中被執行,其中可執行一轉換到一頻域內,例如轉換到一FFT域或一QMF域內。
在一較佳實施例中,該裝置包含一時域至頻域轉換器(例如,一快速傅立葉變換手段或一QMF濾波器組),該時域至頻域轉換器被組態成提供一輸入音訊信號之一頻域表示型態(例如,快速傅立葉變換係數或QMF子頻帶信號)的值或該輸入音信信號之一預處理(例如,向下取樣及/或視窗化)版本的值作為該輸入信號表示型態。該裝置較佳地包含一頻域至時域轉換器(例如,一快速傅立葉逆變換方式或一QMF合成方式),該頻域至時域轉換器被組態成利用該第一修補之該頻域表示型態(例如,FFT係數或QMF子頻帶信號)的值及該第二修補之該頻域表示型態(例如,FFT係數或QMF子頻帶信號)的值來提供該擴充頻寬信號的一時域表示型態。該頻域至時域轉換器較佳地被組態使得該頻域至時域轉換器所接收之一不同頻譜值數目(例如,FFT槽或 QMF頻帶)大於該時域至頻域轉換器(例如,快速傅立葉變換方式或QMF濾波器組)提供的一不同頻譜值數目(例如,若干FFT頻率槽或若干QMF頻帶),使得該頻域至時域轉換器被組態成處理比該時域至頻域轉換器數目更多的頻率槽(例如,快速傅立葉變換頻率槽或QMF頻帶)。因此,一頻寬擴充因頻域至時域轉換器包含比時域至頻域轉換器數目更多的頻率槽的事實而被實現。
在一較佳實施例中,該裝置包含一分析視窗化工具,該分析視窗化工具被組態成視窗化一時域輸入音訊信號來獲得時域輸入音訊信號之一視窗化版本,這構成獲得輸入信號表示型態的基礎。再者,該裝置包含一合成視窗化工具,合成視窗化工具被組態成視窗化擴充頻寬信號之一時域表示型態的一部分來獲得擴充頻寬信號之時域表示型態的一視窗化部分。因此,擴充頻寬信號中的失真被減少或甚至避免。
在一較佳實施例中,該裝置被組態成處理時域輸入音訊信號之複數時間上重疊時移部分來獲得擴充頻寬信號之時域表示型態之複數時間上重疊時移視窗化部分。時域輸入音訊信號之時間上相鄰時移部分之間的一時間偏移小於或等於分析視窗之一視窗化長度的四分之一。已發現的是,該時域輸入音訊信號之相鄰時移部分之間的一相對大的時間重疊(及/或該擴充頻寬信號之該時域表示型態之時間上相鄰時移部分之間的一相對大的時間重疊)造成一帶來一良好聽覺印象的頻寬擴充,因為由於相對大的時間重 疊而使信號的非平穩性被計入。
在一較佳實施例中,該裝置包含一暫態資訊提供者,該暫態資訊提供者被組態成提供一指示該輸入信號中一暫態存在之資訊(由該輸入信號表示型態表示)。該裝置也包含一第一處理支路,用以基於該輸入信號表示型態之一非暫態部分來提供一擴充頻寬信號部分的一表示型態,及一第二處理支路,用以基於該輸入信號表示型態之一暫態部分來提供一擴充頻寬信號部分的一表示型態。該第二處理支路被組態成處理具有比該第一處理支路處理的該輸入信號之一頻域表示型態更高的頻譜解析度之該輸入信號的一頻域表示型態。因此,包含一暫態的信號部分可用較高頻譜解析度來處理,這避免了在暫態存在下的可聞失真。另一方面,一降低的頻譜解析度可被用於非暫態信號部分(亦即,其中該暫態資訊提供者未識別一暫態的信號部分)。因此,一高計算效率被保持,且增加的頻譜解析度僅在當其帶來優點的時候才被使用(例如,因為它造成在暫態附近之一更好的聽覺印象)。
在一較佳實施例中,該裝置包含一時域補零器,該時域補零器被組態成對該輸入信號之暫態部分補零以便獲得該輸入信號之一時間上擴充暫態部分。在此情況中,該第一處理支路包含被組態成提供與該輸入信號之一非暫態部分相關聯之一第一數目頻域值之一(第一)時域至頻域轉換器,且該第二處理支路包含被組態成提供與該輸入信號之該時間上擴充暫態部分相關聯之一第二數目頻域值之一 (第二)時域至頻域轉換器。該第二數目頻域值大於該第一數目頻域值至少一因數1.5。因此,一良好暫態處理被獲得。
在一較佳實施例中,該第二處理支路包含一去零器,該去零器被組態成自基於該輸入信號之該時間上擴充暫態部分而獲得的一擴充頻寬信號部分移除複數零值。因此,由補零而獲得之該輸入信號的該時間擴充被反轉。
在一較佳實施例中,該裝置包含一向下取樣器,該向下取樣器被組態成向下取樣該輸入信號的一時域表示型態。藉由向下取樣該輸入信號,如果該輸入信號不涵蓋一脈衝編碼調變的樣本輸入串流,一計算效率可被提高。
依據本發明的另一實施例建立一裝置,其中值複製工具與語音編碼器之處理的處理順序被反置。這一用以基於一輸入信號表示型態(110;383)產生一頻寬擴充信號之一表示型態的裝置包含一值複製工具,該值複製工具被組態成複製該輸入信號表示型態的一組值來獲得一第一修補之一頻域表示型態的一組值,其中該第一修補與比該輸入信號表示型態更高的頻率相關聯。該裝置也包含一相位語音編碼器(130;426),該相位語音編碼器被組態成基於該第一修補之頻域表示型態的該等值(β4/3ζ ...β )來獲得擴充頻寬信號之一第二修補之一頻域表示型態的值(β ...β ),其中該第二修補與比該第一修補更高的頻率相關聯。該裝置被組態成利用該第一修補之頻域表示型態的該等值與該第二修補之頻域表示型態的該等值來獲得擴充頻寬信號的表示型態(120;426)。
此裝置能夠以相對低的計算複雜度來獲得一擴充頻寬信號,同時仍實現該擴充頻寬信號的一良好聽覺印象。藉由在複製操作之後執行該相位語音編碼器,該相位語音編碼器能以一相對小的頻率比(語音編碼器輸出頻率與語音編碼器輸入頻率之比)來被操作,這造成了一良好的頻譜填充且避免了存在大頻譜孔。此外,已發現的是,利用此構想的聽覺印象仍比一僅依賴於複製操作而不用一語音編碼器之構想的聽覺印象為佳,雖然該第一修補(較低頻率修補)是利用該複製操作而被獲得,且僅有該第二修補(較高頻率修補)是利用該相位語音編碼器操作而被獲得。再者,計算複雜度低於所有的修補都是利用相位語音編碼器而被產生之系統中的計算複雜度,且與此類構想相較之下頻譜孔被減少了。
自然地,此實施例可由本文所討論之功能中的任一功能來補充。
依據本發明的其它實施例建立用以基於一輸入信號表示型態產生一擴充頻寬信號之一表示型態的方法。該方法是基於與上面所討論裝置相同的構想。
依據本發明的另一實施例建立一用以實施該方法的電腦程式。
圖式簡單說明
第1圖繪示依據本發明之一實施例一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之裝置的一方塊系統圖; 第2圖繪示依據本發明該頻寬擴充構想的一概要圖;第3圖繪示依據本發明之一實施例一音訊解碼器之一詳細的方框系統圖,該音訊解碼器包含一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之裝置;第4圖繪示依據本發明之一實施例一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之方法的一流程圖;第5圖繪示依據一第一比較範例一音訊解碼器之一方塊系統圖;及第6圖依據一第二比較範例繪示一音訊解碼器的一方塊系統圖。
實施例之詳細說明 1.依據第1圖的裝置
第1圖繪示一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之裝置100的一方塊系統圖。
該裝置被組態成接收一輸入信號表示110並基於輸入信號表示110提供一擴充頻寬信號120。裝置100包含一相位語音編碼器,該相位語音編碼器被組態成基於輸入表示型態110獲得擴充頻寬信號120之一第一修補之一頻域表示型態130的值。第一修補之該頻域表示型態的值例如用βζ 至β 來被指定。裝置100也包含一值複製工具140,該值複製工具140被組態成複製由相位語音編碼器130提供之第一修補之頻域表示型態132的一組值來獲得一第二修補之一頻域 表示型態142的一組值,其中第二修補與比第一修補更高的頻率相關聯。第二修補之頻域表示142的值例如用β 至β 來被指定。裝置100被組態成利用第一修補之頻域表示型態132的值βζ 至β 及第二修補之頻域表示型態142的值β 至β 來獲得擴充頻寬信號的表示型態。舉例而言,擴充頻寬信號之表示型態120可既包含第一修補之頻域表示型態132的值且又包含第二修補之頻域表示型態142的值。此外,擴充頻寬信號的表示型態120例如可包含輸入信號(例如用輸入信號表示型態110來表示)之一頻域表示型態的值。然而,擴充頻寬信號之表示型態120也可以是一時域表示型態,該時域表示型態可基於第一修補之頻域表示型態132的值與第二修補之頻域表示型態142的值(及可取捨地,額外的值,例如,輸入信號之頻域表示型態116的值,及/或額外修補之一頻域表示型態的值)。
下面參考第2圖將詳細描述裝置100的功能及操作,第2圖繪示用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之發明構想的一概要圖。
一第一圖示200繪示由相位語音編碼器130執行之輸入信號(用輸入信號表示型態110表示)的一諧波移調。可見的是,輸入信號例如用一組量值來表示。指數k指示一頻譜槽(例如,一具有一快速傅立葉指數k的槽或一具有一QMF轉換指數k的頻帶)。輸入信號表示型態110例如對於k=1至k=ζ可包含量值αk ,其中ζ可指示一所謂的交越頻率槽且描述頻寬擴充的一頻率起始。一基本頻率範圍例如被相位值φk 進 一步描述,其中k是如前所述的一頻率槽指數。
類似地,該第一修補以一頻域表示型態的一組值描述。舉例而言,k在ζ與2ζ之間的值βk 。可選擇地,該第一修補可以由量值αk 及相位值φk 表示,其中頻率槽指數k在ζ與2ζ之間。
如所提及,相位語音編碼器130被組態成基於輸入信號表示型態執行一諧波移調來獲得該第一修補之頻域表示型態132的值。為此目的,相位語音編碼器130可將一頻率槽之具有(頻率槽)指數2k的一量值α2k 設為等於一頻率槽之具有(頻率槽)指數k的量值αk 。再者,相位語音編碼器130可被組態成將一具有指數2k之頻率槽的相位值設為一2倍於與具有指數k之頻率槽相關聯之相位值的值。在此情況中,具有指數k的頻率槽可以是輸入信號表示型態110的一頻率槽,及具有指數2k的頻率槽可以是該第一修補之頻域表示型態132的一頻率槽。此外,具有指數2k的頻率槽可包含一頻率,該頻率是被包括於具有指數k的頻率槽中之一頻率的一第一諧波。因此,對於2k在ζ與2ζ範圍之間,為該第一修補之頻域表示型態132的值之量值α2k 及相位值可被獲得,使得α2kk。可選擇地及等效地,對於2k在ζ與2ζ之間,為該第一修補之頻域表示型態132的值之值β2k 可被獲得,使得
總之,假定具有指數k(或等效地,2k等等)的頻率槽,其例如為一QMF域表示型態之頻帶之一快速傅立葉變換表示之頻率槽,在頻率上被線性隔開(使得頻率槽指數,例如 k或2k,至少近似地與被包含於各自頻率槽中之一頻率成比例,例如一k階快速傅立葉變換頻率槽之一中心頻率或一k階QMF頻帶之一中心頻率),一諧波移調由相位語音編碼器130獲得。
然而,該第二修補之頻域表示型態142的值被值複製工具140獲得,該值複製工具140執行該第一修補之頻域表示型態132之非諧波複製。
現在參考圖示250,該非諧波複製將被討論。如所視,該第一修補被值βζ 至β 表示(或等效地,由量值αζ 至α 及相位值表示)。因此,該第二修補之頻域表示型態142之值β 至β (或等效地,量值α 至α 及相位值)由值複製工具140所執行的一非諧波複製獲得。舉例而言,該第二修補之頻域表示型態142的複數頻譜值β 至β 可依據對於k在ζ與2ζ之間βkk-ζ 且基於該第一修補之頻域表示型態132之相對應值βζ 至β 而被獲得。等效地,該第二修補之頻域表示型態142的複數量值α 至α 可依據對於k在2ζ與3ζ之間αkk-ζ 且基於該第一修補之頻域表示型態132之量值而被獲得。在此情況中,該第二修補之頻域表示型態142之相位值可依據對於k在2ζ與3ζ之間且基於該第一修補之頻域表示型態132之相位值而被獲得。
因此,該第二修補之頻域表示型態142的值表示一信號,該信號相對一由該第一修補之頻域表示型態132的值表示之信號被非諧波地(亦即線性地)頻移。
該第一修補之頻域表示型態132的值βζ 至β 及該第二修補之頻域表示型態142的值β 至β 可被用來獲得擴充頻寬信號的表示型態120。視需求而定,擴充頻寬信號的表示型態120可以是一頻域表示或一時域表示。如果期望獲得一時域表示型態,一頻域至時域轉換器可被用於基於該第一修補之頻域表示型態132的值βζ 至β 及該第二修補之頻域表示型態142的值β 至β 來獲得時域表示型態。可選擇地(及等效地)值αζ 至α、α 至α可被使用以便獲得擴充頻寬信號之表示型態120(以頻域或以時域)。
如上討論,針對第1及2圖所予以描述的構想帶來了良好的聽覺印象及相對地的計算複雜度。即便複數修補(例如該第一修補及該第二修補)被使用,相位語音編碼器僅被需要一次。同時避免了在當另一語音編碼器被用來獲得該第二修補時出現在第二修補中有大的頻譜孔。因此,發明構想帶來了計算複雜度與一可達到的聽覺印象之間的一非常良好折衷。
再者,應該注意的是,在一些實施例中額外的修補可基於該第一修補之頻域表示型態132的值而被獲得。舉例而言,在本發明構想之一可取捨擴充中,一第三修補之一頻域表示型態的值可基於該第一修補之頻域表示型態132的值利用另一值複製工具而被獲得,如將參考第3圖更詳細地說明。
依據第1及2圖的實施例(且其他實施例亦然)能夠以各 種方式被修改。舉例而言,一第一修補可利用一相位語音編碼器而被獲得,且第二、第三及第四修補可由頻譜值的一複製操作而被獲得。可選擇地,一第一及一第二修補可利用相位語音編碼器而被獲得。自然地,相位語音編碼操作與複製操作之不同組合可被應用。
然而可選擇地,一第一修補可利用輸入信號表示型態之頻譜值的一複製操作(值複製工具)而被獲得,且一第二修補可利用一相位語音編碼器(基於該第一修補的複製值,利用值複製工具而被獲得)而被獲得。
2.依據第3圖的實施例
下面,一音訊解碼器將參考第3圖說明,其中第3圖繪示一音訊解碼器300之一詳細方塊系統圖,該音訊解碼器300包含一用以基於一輸入信號表示型態產生一擴充頻寬信號之表示型態之裝置。
2.1音訊解碼器概觀
音訊解碼器300被組態成接收一資料串流並基於該資料串流提供一音訊波形312。音訊解碼器300包含一核心解碼器320,該核心解碼器320被組態成例如基於資料串流310提供脈衝編碼調變資料(「PCM資料」)322。核心解碼器320可例如是如在國際標準ISO/IEC 14996-3:2005(e),第三部分:音訊,第4子部分:通用音訊編碼(GA)-AAC,Twin VQ,BSAC中所述之一音訊解碼器。舉例而言,核心解碼器320可以是一所謂的高階音訊編碼(AAC)核心解碼器,其在該標準中被說明且為熟於此技者所習知。因此,脈衝編碼 調變音訊資料322可由核心解碼器220基於資料串流310提供。舉例而言,脈衝編碼調變音訊資料322可包含1024樣本的訊框長度。
音訊解碼器300也包含一頻寬擴充(頻寬擴充器)330,該頻寬擴展330被組態成接收脈衝編碼調變音訊資料322(例如,1024樣本的一訊框長度)且基於該脈衝編碼調變音訊資料322提供波形312。頻寬擴充(頻寬擴充器)330也接收資料串流310的一些控制資料332。頻寬擴充330包含一修補的QMF資料提供(或修補的QMF資料提供者)340,該修補的QMF資料提供340接收脈衝編碼調變音訊資料322且基於該脈衝編碼調變音訊資料322提供修補的QMF資料342。頻寬擴充330也包含一包絡格式化(或包絡格式化器)344,該包絡格式化接收該修補的QMF資料342及包絡格式化的控制資料346且基於它們提供修補且包絡格式化的QMF資料348。頻寬擴充330也包含一QMF合成(或QMF合成器)350,該QMF合成350接收修補且包絡格式化的QMF資料348並基於該修補且包絡格式化的QMF資料348藉由執行一QMF合成來提供波形312。
2.2修補的QMF資料提供340 2.2.1修補的QMF資料提供-概觀
修補的QMF資料提供340(在一硬體實施中可由一修補的QMF資料提供者340執行)可在兩模式,亦即一第一模式與一第二模式之間切換,在該第一模式中一頻帶複製(SBR)修補被執行,及在該第二模式中一諧波頻寬擴充(HBE)修補 被執行。舉例而言,脈衝編碼調變的音訊資料322可被一延遲器360延遲以獲得延遲的脈衝編碼調變音訊資料362,且該延遲的脈衝編碼調變音訊資料362可利用一32頻帶QMF分析器364被轉換為一QMF域。該32頻帶QMF分析器364的結果,例如該延遲的脈衝編碼調變音訊資料362之一32頻帶QMF域(亦即頻域)表示型態365可被提供至一SBR修補器366及至一諧波頻寬擴充修補器368。
頻帶複製修補器366例如可執行一頻帶複製修補,這例如在國際標準ISO/IEC 14496-3:2005(e),第3部分,第4子部分節4.6.18“SBR tool”中說明。因此,一64頻帶QMF域表示型態370可由頻帶複製修補器366提供。
可選擇地或額外地,諧波頻寬擴充修補器368可提供一64頻帶QMF域表示型態,該64頻帶QMF域表示型態是PCM音訊資料322之一頻寬擴充表示型態。一依賴於自資料串流310擷取的頻寬擴充控制資料332之開關374可被用來決定是頻帶複製修補366抑或是諧波頻寬擴充修補368被應用以便獲得修補的QMF資料342(等於該一64頻帶QMF域表示型態370或等於該64頻帶QMF域表示型態372,視開關374的狀態而定)。
2.2.2修補的QMF資料提供-諧波頻寬擴充368
下面,(至少部分地)諧波頻寬擴充修補368將被更詳細說明。諧波頻寬擴充修補368包含一信號路徑,其中脈衝編碼調變音訊資料322或其一預處理版本被轉換為一頻域(例如轉換為一快速傅立葉變換係數域或一QMF域),其中一諧 波頻寬擴充在該頻域中被執行,及其中所獲得的擴充頻寬信號之頻域表示型態、或由之取得的一表示型態被用於諧波頻寬擴充修補。
在第3圖的實施例中,脈衝編碼調變音訊資料322於一向下取樣器380中被向下取樣,例如以一因數2,來獲得向下取樣脈衝編碼調變音訊資料381。該向下取樣脈衝編碼調變音訊資料381後續被一視窗化工具382視窗化,視窗化例如可包含512樣本的一視窗長度。應該注意的是,該視窗在後續處理步驟中例如被移位向下取樣脈衝編碼調變音訊資料381的64樣本,使得向下取樣脈衝編碼調變音訊資料之視窗化部分383之一相對大的重疊被獲得。
音訊解碼器300也包含一暫態檢測器384,該暫態檢測器384被組態成檢測脈衝編碼調變音訊資料322內的一暫態。暫態檢測器384可基於PCM音訊資料322自身或基於一被包括於資料串流310中的旁側資訊來檢測一暫態的存在。
向下取樣音訊資料381之視窗化部分383可利用一第一處理支路386或一第二處理支路388被選擇性處理。該第一支路386可被用於處理一向下取樣PCM音訊資料之一非暫態視窗化部分383(暫態檢測器384否定其存在一暫態),及一第二支路388可被用於處理該向下取樣PCM音訊資料之一暫態視窗化部分383(暫態檢測器384指示其存在一暫態)。
第一支路386接收一非暫態視窗化部分383並基於該非暫態視窗化部分383提供該視窗化部分383之一頻寬擴充表示型態387、434。類似地,第二支路388接收向下取樣PCM 音訊資料381之一暫態視窗化部分383並基於該暫態視窗化部分383提供該(暫態)視窗化部分383之一頻寬擴充表示型態389。如上討論,暫態檢測器384決定目前視窗化部分383是一非暫態視窗化部分抑或是一暫態視窗化部分,使得目前視窗化部分383的處理是利用第一分支386或第二分支388來執行。因此,不同的視窗化部分383可由不同的支路386處理,其中在後續視窗化部分383之後續頻寬擴充表示型態387、389之間有一明顯的時間重疊(因為時間上後續視窗化部分383有一明顯的時間重疊)。
諧波頻寬擴充368進一步包含一重疊及相加器390,該重疊相加器390被組態成重疊及相加與不同(時間上後續)視窗化部分383相關聯之不同的頻寬擴充表示型態387、389。一重疊與相加增量例如可被設為256樣本。因此,一被重疊及相加的信號392被獲得。
諧波頻寬擴充368也包含一64頻帶QMF分析器394,該64頻帶QMF分析器394被組態成接收重疊及相加的信號392並基於該重疊及相加的信號來提供一64頻帶QMF域信號396。該64頻帶QMF域信號396例如可表示一比32頻帶分析器364提供的32頻帶QMF域信號365為寬的頻率範圍。
諧波頻寬擴充368也包含一組合器398,該組合器398被組態成接收32頻帶QMF分析器364提供的32頻帶QMF域信號及64頻帶QMF域信號396並將這些信號組合。舉例而言,64頻帶QMF域信號396之低頻率範圍(或基本頻率範圍)成份可被32頻帶QMF分析器364提供的32頻帶QMF域信號365 替換或與其組合,使得例如,64頻帶QMF域信號372之32較低頻率範圍(或基本頻率範圍)成份由32頻帶QMF分析器364之輸出決定,及使得64頻帶QMF域信號372之32較高頻率範圍成份由64頻帶QMF域信號396之32較高頻率範圍成份決定。
自然地,QMF域信號之成份數目可隨特定需要而變化。自然地,一基本頻率範圍(也被指示為較低頻率範圍)與一頻寬擴充頻率範圍(也被指示為較高頻率範圍)之間過渡的一頻率位置可視交越頻率而定,或等效地,視用脈衝編碼調變音訊資料322表示之音訊信號的頻寬而定。
下面,將說明有關第一處理支路386的細節。第一支路386包含一時域至頻域轉換器400,該時域至頻域轉換器400例如以一快速傅立葉變換方式的形式而被實施,該快速傅立葉變換方式被組態成基於向下取樣脈衝編碼調變音訊資料381之512時域樣本的一視窗化部分383提供512快速傅立葉變換係數。因此,該快速傅立葉變換頻率槽被用在1與n=512範圍內的後續整數頻率槽指數k來指示。
第一支路386也包含一量值提供者402,該量值提供者402被組態成提供快速傅立葉變換係數的量值αk 。此外,第一支路386包含一相位值提供者404,該相位值提供者404被組態成提供快速傅立葉變換係數的相位值φk
第一支路386也包含一相位語音編碼器406,該相位語音編碼器406可接收量值αk 及相位值φk 來作為一輸入信號表示型態,且可包含上面討論之相位語音編碼器130的功 能。因此,相位語音編碼器406可輸出一第一修補之一頻域表示型態之範圍在βξ 與β 間的值β2k 。值β2k 以408指示,且可等於一第一修補之頻域表示型態132的值。第一支路386也包含一值複製工具410,該值複製工具可接管值複製工具140的功能,且可接收值β2k (例如,範圍在βξ 與β 之間)作為一輸入資訊。因此,第一值複製工具410可提供範圍為β 與β 間的值βk ,該值βk 被用412指示且可等於該第二修補之頻域表示型態142之β 至β 的值。此外,第一支路386可(可取捨地)包含一第二值複製工具414,該第二值複製工具被組態成接收相位語音編碼器406提供的值βξ 與β (也以408指示)並基於該值βξ 與β 利用一複製操作(有效地造成值βξ 至β (408)所描述之頻譜的一非諧波頻移)提供頻譜值β 至β 。因此,第二值複製工具414提供一第三修補之一頻域表示型態的頻譜值β 至β ,也被指示為416。
第一支路386可包含一可取捨的內插器420,該可取捨的內插器可被組態成接收該第二修補與第三修補之頻域表示型態的值412、416(且可取捨地,也接收該第一修補之頻域表示型態的值422)並提供該第二與第三修補(且可取捨地,也含該第一修補)之頻域表示型態的內插值422。
第一支路386可額外包含一補零器424,該補零器被組態成接收該第二與第三修補(且可取捨地,也含該第一修補)之頻域表示型態的內插值422(或可選擇地,也接收初始值412、416)並基於該內插值422獲得一頻域表示型態之值的一補零版本,該補零版本被補零以便適於一頻域至時域轉 換器428的尺度。
該頻域至時域轉換器428可例如作為一快速傅立葉逆變換而被實施。舉例而言,該快速傅立葉逆變換428可被組態成接收一組2048個頻譜值並基於該組2048個頻譜值提供擴充頻寬信號部分之一時域表示型態430。第一路徑386也包含合成視窗化工具432,該合成視窗化工具432可被組態成接收擴充頻寬信號部分之時域表示型態430並應用一合成視窗化以便獲得擴充頻寬信號部分430之一合成視窗化時域表示型態。
音訊解碼器300也包含一第二處理路徑388,該第二處理路徑388與第一路徑386相較之下執行一非常類似的處理。然而,該第二路徑388包含一時域補零器438,該時域補零器438被組態成接收向下取樣脈衝編碼調變音訊資料381之視窗化暫態部分383並由該視窗化部分383獲得一補零版本439,使得補零部分439的一開始與補零部分439的一末尾被補零,且使得該暫態被安排於補零部分439的一中心區域(在補零的開始樣本與補零的末尾樣本之間)中。
第二路徑388也包含一時域至頻域轉換器440,例如,一快速傅立葉變換器或一QMF(正交鏡像濾波器組)。該時域至頻域轉換器440通常比該第一支路的該時域至頻域轉換器400包含更多數目的頻率槽(例如,快速傅立葉變換頻率槽或QMF頻帶)。舉例而言,該快速傅立葉變換器440可被組態成自1024時域樣本之一補零部分439獲得1024快速傅立葉係數。
第二路徑388也包含一量值決定器442及一相位值決定器444,雖然具有增加的尺度N=1024,但它們可包含與第一支路386之相對應裝置402、404相同的功能。類似地,第二支路388也包含一相位語音編碼器446、一第一值複製工具450、一第二值複製工具454、一可取捨的內插器460、及一可取捨的補零器464,雖然具有增加的尺度N=1024,它們可包含與第一支路386之相對應裝置相同的功能。特別地,交越頻帶的指數ξ在第二支路388中可高於第一支路386中例如一因數2。
因此,包含例如4096快速傅立葉變換係數之一頻帶複製可被提供給一快速傅立葉逆變換器468,其相應地提供一具有4096樣本的時域信號470。
第二支路388也包含一合成視窗化工具472,該合成視窗化工具472被組態成提供擴充頻寬信號部分之時域表示型態470的一視窗化版本。
第二支路388也包含一去零器,該去零器被組態成提供一擴充頻寬信號部分之一縮短的視窗化時域表示型態478,該縮短的視窗化時域表示型態478例如可包含2048樣本。
因此,時域表示型態387被用於脈衝編碼調變音訊信號322之非暫態部分(例如,音訊訊框),及時域表示型態487被用於脈衝編碼調變音訊信號322之暫態部分。因此,在第二處理支路388中暫態部分以較高頻域解析度被處理,而在第一處理支路386中非暫態部分以較低頻譜解析度被處理。
2.3包絡格式化344
下面包絡格式化344將被簡要概述。另外,參考發明介紹段的各別論述,它們也適用於本發明構想。
基於64頻帶QMF域信號396而獲得之修補的QMF資料342可被包絡格式化344處理來獲得輸入至QMF合成器350的信號表示型態348。該包絡格式化可例如適於修補QMF資料342之QMF域頻帶信號以便執行重建遺失諧波及/或以便獲得一逆濾波。雜訊填充、遺失諧波插入及逆濾波之變化例如可由一旁側資訊346控制,該旁側資訊346可自資料串流310擷取。進一步的細節例如可參考國際標準ISO/IEC 14496-3:2005(e),第3部分,第4子部分節4.6.18中SBR tool的討論。然而,依據需求包絡格式化之不同的構想也可被應用。
3.不同解決方案的討論與比較
下面將提供本發明解決方案的一簡要討論及概要。
依據本發明的實施例,例如依據第1圖的裝置100及依據第3圖的音訊解碼器300是(或包含)頻帶複製(SBR)內之新的修補演算法。不同方式的頻域修補可被使用以便構成軟或硬體需求要求之不同的信號特性或限制。
在標準的SBR中,修補始終由QMF域內的一複製操作來完成。這有時可導致聽覺失真,特別是正弦波在LF與產生的HF部分之邊界被複製到的彼此近鄰內時。因此,一新的修補演算法已被引入,其藉由利用一相位語音編碼器(見例如參考文獻[13])避免了一些問題。此演算法作為一比較 範例在第5圖被說明。
標準的SBR由聽覺失真的問題。參考文獻[13]中呈現的相位語音編碼器方法具有一複雜度,特別地因為需要計算大量的快速傅立葉變換。另外地,對於高修補(高伸展因數)頻譜變得很稀疏,這導致不期望的音訊失真。
兩實施例藉由將不同修補的產生自時域移至頻域避免了大量的快速傅立葉變換。在第6圖中提出一範例,其中對頻域的轉換藉助於一快速傅立葉變換被實現。然而,其它時域轉換可利用以代替傅立葉變換。
第3圖繪示第6圖SBR修補演算法的一混合解決方案。僅第一修補由相位語音編碼器產生(例如,第一支路386的區塊406,及第二支路388的區塊446)而更高修補(例如,第二修補及第三修補)僅由複製第一修補來產生(例如,利用第一支路386的值複製工具410、414,及/或第二支路388的值複製工具450、454)。這產生一較不稀疏的頻譜。
下面將簡要闡述在第6圖所示音訊解碼器中實施之比較演算法及在第3圖所示音訊解碼器中實施之發明演算法:在第6圖所示音訊解碼器中實施之該比較演算法或參考演算法包含下列步驟:
1.信號向下取樣(如果Nyquist準則未被損害)
2.信號被視窗化(“Hann”視窗化被提出但其它視窗形狀可被使用)及自該信號取長度N的所謂顆粒(grains)(例如,視窗化信號部分383)。該等視窗相對信號以一跳距H被移位。一.A N/H=8次重疊被提出。
3.如果顆粒(例如,一視窗化信號部分383)在邊緣包含一暫態事件,其被補零(例如,藉由補零器438),這導致頻域中的一過度取樣。
4.顆粒被轉換成頻域(例如,利用時域至頻域轉換器400、440)。
5.頻域顆粒被(可取捨地)填補至該修補演算法之一期望的輸出長度。
6.量級及相位被計算(例如,利用裝置402、404、442、444)。
7.頻率槽內容n被複製至伸展因數s的位置sn。相位乘以伸展因數s。這對於所有伸展因數s都完成(僅針對頻譜中涵蓋期望修補的區域)。(a)ζ.(s-1)/snζ或(b)ζ/snζ;(b)由於修補重疊產生一比(a)更密集的頻譜。ζ表示LF部分的最高頻率,所謂的交越頻率。一般而言,相位是針對一新的樣本位置(例如,頻率位置)而被校正,這可利用這裡所討論的演算法或任一適當的選替演算法來實現。
8.透過複製未得到資料的頻率槽可藉由應用一內插功能來填充(例如,利用內插器420、460)。
9.顆粒被轉回至時域(例如,利用快速傅立葉逆變換器428、468)。
10.時域顆粒與一合成視窗相乘(再次提出Hann視窗)(例如利用合成視窗化工具432、472)。
11.如果在步驟3的補零被完成,零再次被去除(例如,利用去零器476)。
12.利用重疊與相加(OLA)(例如,利用重疊與相加390)分別建立擴充頻寬信號或訊框(例如,信號392)。
然而,在一些可選擇實施例中個別步驟的順序也可被交換,且在一些可選擇實施例中一些步驟可被併成一單一步驟。
在第3圖所示音訊解碼器中實施之發明演算法包含下列步驟:
1.信號向下取樣(如果Nyquist準則未被損害)
2.信號被視窗化(“Hann”視窗化被提出但其它視窗形狀可被使用)及自該信號取長度N的所謂顆粒(grains)(例如,視窗化信號部分383)。該等視窗相對信號以一跳距H.被移位,A N/H=8次重疊被提出。
3.如果顆粒(例如,一視窗化信號部分383)在邊緣包含一暫態事件,其被補零(例如,藉由補零器438),這導致頻域中的一過度取樣。
4.顆粒被轉換成頻域(例如,利用時域至頻域轉換器400、440)。
5.頻域顆粒被(可取捨地)填補至該修補演算法之一期望的輸出長度。
6.量級及相位被計算(例如,利用裝置402、404、442、444)。
7. a)頻率槽內容n被複製至位置2n。相位乘以2。(a)ζ.(s-1)/snζ或(b)ζ/snζ(見上文)。
7. b)對於所有1nζ範圍內的伸展因數s>2,頻率槽內 容2n被複製至位置sn。
8.透過複製未得到資料的頻率槽可藉由應用一內插功能來填充(例如,利用內插器420、460)。
9.顆粒被轉回至時域(例如,利用快速傅立葉逆變換器428、468)。
10.時域顆粒與一合成視窗相乘(再次提出Hann視窗)(例如利用合成視窗化工具432、472)。
11.如果在步驟3的補零被完成,零再次被去除(例如,利用去零器476)。
12.利用重疊與相加(OLA)(例如,利用重疊與相加390)分別建立擴充頻寬信號或訊框(例如,信號392)。
然而,在一些可選擇實施例中個別步驟的順序也可被交換,且在一些可選擇實施例中一些步驟可被併成一單一步驟。
因此,在參考演算法(在第6圖所示的音訊解碼器中實施)與發明演算法(在第3圖所示的音訊解碼器中實施)中除了步驟7外的所有步驟都是相同的,步驟7已用下列步驟來替換:
7 a)頻率槽內容n被複製至位置2n。相位乘以2。(a)ζ.(s-1)/snζ或(b)ζ/snζ(見上文)。
7. b)對於所有1nζ範圍內的伸展因數s>2,頻率槽內容2n被複製至位置sn。
總之,依據第1、2、3及4圖的實施例(及還有第6圖所示的音訊解碼器)與習知解決方案相較時首先顯著地減小 複雜度。其次,它們允許與不同於平面SBR或如第5圖所呈現者之不同的頻譜修改(例如,見參考文獻[13])。
舉例而言,語音信號可能受用於依據第1、2、3及4圖之裝置、音訊解碼器及方法執行的演算法,因為典型針對語音信號的脈衝串結構比參考文獻[13]中提出的方法更好維護。
依據本發明之實施例的最突出應用是音訊解碼器,其經常於手持裝置上被實施且因而依靠一電池供電運作。
4.依據第4圖的方法
下面參考第4圖將說明一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之方法400,第4圖繪示這一方法的一流程圖。方法400包含一步驟410:利用一相位語音編碼器而基於輸入信號表示型態獲得擴充頻寬信號之一第一修補之一頻域表示型態的值。方法400也包含一步驟420:複製該第一修補之頻域表示型態之一組利用相位語音編碼器而獲得的值來獲得一第二修補之一頻域表示型態的一組值,其中該第二修補與比該第一修補更高的頻率相關聯。方法400也包含一步驟430:利用該第一修補之頻域表示型態的值及該第二修補之頻域表示型態的值來獲得擴充頻寬信號之一表示型態。
方法400可由這裡就發明裝置而討論之任何裝置及功能來補充。
5.實施選替方案
雖然一些層面已在一裝置的環境中予以描述,很顯然 的是這些層面也表示相對應方法的一說明,其中一區塊或裝置對應於一方法步驟或一方法步驟的一特徵。類似地,在一方法步驟的環境中予以描述的層面也表示一相對應裝置之一相對應區塊或項目或特徵的一說明。一些或所有這些方法步驟可由(或利用)一硬體裝置來執行,例如像一微處理器、一可程式化電腦或一電子電路。在一些實施例中,最重要方法步驟中之某一或一個以上的方法步驟被這一裝置來執行。
視某些實施需求而定,本發明之實施例可在硬體或在軟體中被實施。實施可利用一數位儲存媒體而被執行,例如,其上儲存有電子可讀取控制信號之一軟碟、一DVD、一藍光、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快閃記憶體,該等電子可讀取控制信號與一可程式化電腦系統合作(或能夠合作)。使得各自的方法被執行。因此,數位儲存媒體可以是電腦可讀取的。
依據本發明的一些實施例包含一具有電子可讀取控制信號之資料載體,該等電子可讀取控制信號能夠與一可程式化電腦系統合作使得本文所描述之方法當中之一方法被執行。
大體上,本發明之實施例可被實施為一具有一程式碼的電腦程式產品,當該電腦程式碼於一電腦上運行時,該程式碼可操作用以執行諸方法當中之一方法。該程式碼例如可被儲存於一機器可讀取載體上。
其它實施例包含儲存於一機器可讀取載體上用以執行 本文所予以描述的諸方法當中之一方法之電腦程式。
換言之,因此,本發明方法之一實施例是一電腦程式,具有當該電腦程式於一電腦上運行時執行本文所予以描述的諸方法當中之一方法之一程式碼。
因此,本發明方法之一進一步的實施例是一資料載體(或一數位儲存媒體、或一電腦可讀取媒體),包含被記錄於其上用以執行本文所予以描述之諸方法當中之一方法之電腦程式。
因此,本發明方法之一進一步的實施例是一資料串流或一序列信號,表示用以執行本文所予以描述之諸方法當中之一方法的電腦程式。該資料串流或該序列信號例如可被組態成經由一資料通訊連接例如經由網際網路而被傳送。
一進一步的實施例包含一處理裝置,例如,一電腦、或一可程式化邏輯裝置,被組態成或適於執行本文所予以描述之諸方法當中之一方法。
一進一步的實施例包含一電腦,其上安裝有用以執行本文所予以描述之諸方法當中之一方法的電腦程式。
在一些實施例中,一可程式化邏輯裝置(例如,一欄位可程式化閘陣列)可被用來執行本文所予以描述之諸方法的一些或所有功能。在一些實施例中,一欄位可程式化閘陣列可與一微處理器合作以便執行本文所予以描述之諸方法當中之一方法。一般地,該等方法較佳地由任一硬體裝置執行。
上述實施例僅僅是為了說明本發明的原理。被瞭解的是,對熟於此技的其它人士而言,對本文所予以描述之安排及細節的修改及變化將是顯而易見的。因此修改與變化欲僅由後附的專利請求項範圍限制,而非由實施例之描述與說明所提出之特定細節限制。
6.依據第5圖的比較範例
下面參考第5圖將簡要討論一比較範例。依據第5圖之比較範例的功能類似於依據第3圖之音訊解碼器的功能。然而,依據第5圖的比較範例依賴於每支路使用三相位語音編碼器590、592、594、或596、597、598。如第5圖可見,個別快速傅立葉逆變換器、合成視窗化工具、重疊與相加器與個別相位語音編碼器相關聯。此外,在一些子支路中,個別向下取樣(↓因數)及個別延遲(z-取樣 )被使用。因此,依據第5圖的裝置500在計算上不如依據第3圖的裝置300有效率。惟裝置500帶來較諸習知音訊解碼器的顯著改進。
7.依據第6圖的比較範例
第6圖繪示依據一比較範例的另一音訊解碼器600。依據第6圖的音訊解碼器600類似於依據第3及5圖的音訊解碼器300、500。然而,音訊解碼器600也基於每一支路使用複數個別相位語音編碼器690、692、694或696、697、698,這使得裝置600在計算上比裝置300要求更高,且在一些情況中帶來可聞失真。惟裝置500帶來較諸習知音訊解碼器的顯著改進。換句話說,第6圖表示一實施例演算法(頻域內的諧波頻寬擴充)。
8.結論
鑑於上述討論,可見的是,依據第1圖的裝置100、依據第3圖的音訊解碼器300及依據第4圖的方法400較諸比較範例帶來一些優點,這些優點已參考第5及6圖被簡要討論。
本發明構想適用於各種應用且能以多種方式被修改。特別地,快速傅立葉變換器可被QMF濾波器組替換,且快速傅立葉逆變換器可被QMF合成器替換。
此外,在一些實施例中一些或所有的處理步驟可被歸為一單一步驟。例如,一包含一QMF合成及一後續QMF分析之處理序列可藉由忽略重複的轉換而被簡化。
參考文獻:
[1] M. Dietz, L. Liljeryd, K. Kjörling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.
[2] S. Meltzer, R. Böhm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, May 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, May 2002.
[4] International Standard ISO/IEC 14496-3:2001/FPDAM 1, “Bandwidth Extension,” ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.
[5] E. Larsen, R. M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[6] R. M. Aarts, E. Larsen, and O. Ouweltjes. A unified approach to low- and highfrequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003.
[7] K. Käyhkö. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.
[8] E. Larsen and R. M. Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.
[9] E. Larsen, R. M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[10]J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973.
[11]United States Patent Application 08/951,029, Ohmori, et al. Audio band width extending system and method.
[12]United States Patent 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrow-band speech.
[13]Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs,” ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009.
100‧‧‧裝置
110‧‧‧輸入信號表示型態
120‧‧‧擴充頻寬信號的表示型態
130‧‧‧相位語音編碼器
132‧‧‧第一修補之頻域表示型態的值
140‧‧‧值複製工具
142‧‧‧第二修補之頻域表示 型態的值
200‧‧‧第一圖示
250‧‧‧圖示
310‧‧‧資料串流
312‧‧‧波形
320‧‧‧核心解碼器
322‧‧‧脈衝編碼調變資料
330‧‧‧頻寬擴充
332‧‧‧頻寬擴充控制資料
340‧‧‧修補的脈衝編碼調變提供
342‧‧‧修補的脈衝編碼調變資料
346‧‧‧包絡格式控制資料
348‧‧‧修補與包絡格式的脈衝編碼調變資料
350‧‧‧脈衝編碼調變合成器
360‧‧‧延遲器
362‧‧‧延遲的脈衝編碼調變音訊資料
364‧‧‧32頻帶脈衝編碼調變分析器
365‧‧‧32頻帶脈衝編碼調變域表示型態
366‧‧‧頻帶複製修補器
368‧‧‧諧波頻寬擴充修補器
370‧‧‧64頻帶脈衝編碼調變域表示型態
374‧‧‧開關
380‧‧‧向下取樣器
381‧‧‧向下取樣的脈衝編碼調變資料
382‧‧‧視窗化工具
383‧‧‧視窗化部分
384‧‧‧暫態檢測器
386‧‧‧第一處理支路
388‧‧‧第二處理支路
392‧‧‧重疊與相加信號
394‧‧‧64頻帶脈衝編碼調變分析器
396‧‧‧32頻帶脈衝編碼調變域表示信號
398‧‧‧組合器
400‧‧‧時域至頻域轉換器
404‧‧‧相位值提供者
406‧‧‧相位語音編碼器
408、412、416‧‧‧值
410‧‧‧值複製工具、步驟
414‧‧‧第二值複製工具
420‧‧‧內插器、步驟
422‧‧‧內插值
424‧‧‧補零器
426‧‧‧擴充頻寬信號表示型態
428‧‧‧頻域至時域轉換器
430‧‧‧時域表示型態、擴充頻寬信號部分
432‧‧‧合成視窗化工具
434‧‧‧頻寬擴充表示型態
430‧‧‧時域表示型態、步驟
438‧‧‧補零器
439‧‧‧補零部分
440‧‧‧時域至頻域轉換器
441‧‧‧頻域表示型態
442‧‧‧量值決定器
444‧‧‧相位值決定器
446‧‧‧相位語音編碼器
450‧‧‧第一值複製工具
454‧‧‧第二值複製工具
460‧‧‧內插器工具
464‧‧‧補零器
468‧‧‧快速傅立葉逆轉換器
470‧‧‧時域信號、時域表示型態
472‧‧‧合成視窗化工具
474‧‧‧擴充頻寬信號部分
476‧‧‧去零器
478‧‧‧時域表示型態
500‧‧‧裝置
590、592、594、596、597、598‧‧‧相位語音編碼器
690、692、694、696、697、 698‧‧‧相位語音編碼器
第1圖繪示依據本發明之一實施例一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之裝置的一方塊系統圖;第2圖繪示依據本發明該頻寬擴充構想的一概要圖;第3圖繪示依據本發明之一實施例一音訊解碼器之一詳細的方框系統圖,該音訊解碼器包含一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之裝置;第4圖繪示依據本發明之一實施例一用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之方法的一流程圖;第5圖繪示依據一第一比較範例一音訊解碼器之一方塊系統圖;及第6圖依據一第二比較範例繪示一音訊解碼器的一方塊系統圖。
100‧‧‧裝置
110‧‧‧輸入信號表示型態
120‧‧‧擴充頻寬信號的表示型態
130‧‧‧相位語音編碼器
132‧‧‧第一修補之頻域表示型態的值
140‧‧‧值複製工具
142‧‧‧第二修補之頻域表示型態的值

Claims (17)

  1. 一種用以基於一輸入信號表示型態產生一擴充頻寬信號之一表示型態之裝置,該裝置包含:一相位語音編碼器,其被組態成基於該輸入信號表示型態獲得該擴充頻寬信號之一第一修補之一頻域表示型態的值(βξ ...β );及一值複製工具,其被組態成複製該第一修補之該頻域表示型態之一組由該相位語音編碼器提供的值(βξ ...β )以獲得一第二修補之一頻域表示型態的一組值(β ...β ),其中該第二修補與比該第一修補高的頻率相關聯;其中該裝置被組態成利用該第一修補之該頻域表示型態的該等值與該第二修補之該頻域表示型態的該等值來獲得該擴充頻寬信號之該表示型態。
  2. 如申請專利範圍第1項所述之裝置,其中該相位語音編碼器被組態成複製一組與該輸入信號表示型態之複數指定頻率子域相關聯的量值(αζ/2 ...αζ )來獲得一組與該第一修補之相對應頻率子域相關聯的量值(αζ ...α ),其中該輸入信號表示型態之一成對的指定頻率子域與該第一修補之一相對應的頻率子域涵蓋一成對之基本頻率與該基本頻率之一諧波,其中該相位語音編碼器被組態成用一預定因數與該輸入信號表示型態之該複數指定頻率子域相關聯的相位值(φξ/2 ...φξ/2 )相乘來獲得一組與該第一修補之該相 對應頻率子域相關聯的相位值(φξ ...φ ),及其中該值複製工具被組態成複製一組與該第一修補之複數指定頻率子域相關聯的值(βξ ...β )來獲得一組與該第二修補之相對應頻率子域相關聯的值(β ...β ),其中該值複製工具被組態成使該等相位值在該複製中保持不變。
  3. 如申請專利範圍第2項所述之裝置,其中該值複製工具被組態成複製該等值使得該第一修補的值(βζ ...β )與該第二修補之相對應的值(β ...β )之間的一普通頻移被獲得。
  4. 如申請專利範圍第1至3項中任一項所述之裝置,其中該相位語音編碼器被組態成獲得該第一修補之該頻域表示型態的該等值(βζ ...β )使得該第一修補之該頻域表示型態的該等值表示該輸入信號表示型態之一基本頻率範圍的一諧波上轉換版本;及其中該值複製工具被組態成獲得該第二修補之該頻域表示型態的該等值(β ...β )使得該第二修補之該頻域表示型態的該等值表示該第一修補之該音訊內容的一頻移版本。
  5. 如申請專利範圍第1項所述之裝置,其中該裝置被組態以接收輸入音訊資料,向下取樣該輸入音訊資料,以便獲得向下取樣的音訊資料,視窗化該向下取樣的音訊資料,以便獲得視窗化的 輸入資料,將該視窗化的輸入資料轉換或變換為一頻域,以便獲得為一頻域表示型態的該輸入信號表示型態,計算表示一具有該輸入信號表示型態的指數k之頻率槽的量值αk 及相位值φk ,利用表示具有該輸入信號表示型態的頻率槽指數k之頻率槽的複數量值αk 來獲得表示具有該第一修補的頻率槽指數sk之頻率槽的量值α2k ,其中s是一在1.5與2.5之間的伸展因數,及複製及縮放與具有該輸入信號表示型態之頻率槽指數k的頻率槽相關聯的相位值φk 來獲得與具有該第一修補之頻率指數2k的頻率槽相關聯之複製及縮放相位值φ2k =sφk ,複製與具有該第一修補之該頻域表示型態之頻率槽指數k-iζ之頻率槽相關聯的值βk-iζ 來獲得該第二修補之該頻域表示型態的值βk ,將該擴充頻寬信號之該表示型態轉換為該時域來獲得一時域表示型態,及將一合成視窗應用於該時域表示型態。
  6. 如申請專利範圍第1項所述之裝置,其中該裝置包含一時域至頻域轉換器,該時域至頻域轉換器被組態成提供一輸入音訊信號或該輸入音信信號的一預處理版本之一頻域表示型態的值作為該輸入信號表示型態;及其中該裝置包含一頻域至時域轉換器,該頻域至時 域轉換器被組態成利用該第一修補之該頻域表示型態的值(βξ ...β )及該第二修補之該頻域表示型態的值(β ...β )來提供該擴充頻寬信號的一時域表示型態;其中該頻域至時域轉換器被組態使得由該頻域至時域轉換器所接收之一不同頻譜值數目(N=2048)大於由該時域至頻域轉換器提供的一不同頻譜值數目(N=512),使得該頻域至時域轉換器被組態成處理一比該時域至頻域轉換器數目為多的頻率槽。
  7. 如申請專利範圍第1項所述之裝置,其中該裝置包含一分析視窗化工具,該分析視窗化工具被組態成視窗化一時域輸入音訊信號來獲得該時域輸入音訊信號之一視窗化版本,這構成獲得為一頻域表示型態之該輸入信號表示型態的基礎;及其中該裝置包含一合成視窗化工具,該合成視窗化工具被組態成視窗化該擴充頻寬信號之一時域表示型態的一部分來獲得該擴充頻寬信號之該時域表示型態的一視窗化部分。
  8. 如申請專利範圍第7項所述之裝置,其中該裝置被組態成處理該時域輸入音訊信號之複數時間上重疊時移部分來獲得該擴充頻寬信號之該時域表示型態之複數時間上重疊時移視窗化部分,其中該時域輸入音訊信號之時間上相鄰時移部分之間的一時間偏移(Inc=64)小於或等於該分析視窗化工具之一視窗化長度的四分之一。
  9. 如申請專利範圍第1項所述之裝置,其中該裝置包含一暫態資訊提供者,該暫態資訊提供者被組態成提供一指示該輸入信號中一暫態的存在之資訊;及其中該裝置包含一第一處理支路,用以基於該輸入信號表示型態之一非暫態部分來提供一擴充頻寬信號部分的一表示型態,及一第二處理支路,用以基於該輸入信號表示型態之一暫態部分來提供一擴充頻寬信號部分的一表示型態;其中該第二處理支路被組態成處理具有比該第一處理支路處理的該輸入信號之一頻域表示型態更高的一頻譜解析度(N=1024)之該輸入信號的一頻域表示型態。
  10. 如申請專利範圍第9項所述之裝置,其中該第二處理支路包含一時域補零器,該時域補零器被組態成對該輸入信號之一含有暫態部分補零以便獲得該輸入信號之一時間上擴充暫態包含部分;及其中該第一處理支路包含一被組態成提供與該輸入信號之該非暫態部分相關聯之一第一數目(N=512)頻域值的時域至頻域轉換器;及其中該第二處理支路包含一被組態成提供與該輸入信號之該時間上擴充暫態包含部分相關聯之一第二數目(N=1024)頻域值的一時域至頻域轉換器,其中該第二數目(N=1024)頻域值大於該第一數目(N=512)頻域值至少一因數1.5。
  11. 如申請專利範圍第10項所述之裝置,其中該第二處理支路包含一去零器,該去零器被組態成自基於該輸入信號之該時間上擴充暫態包含部分而被獲得之一擴充頻寬信號部分移除複數零值。
  12. 如申請專利範圍第1項所述之裝置,其中該裝置包含一被組態成向下取樣該輸入信號的一時域表示型態之向下取樣器。
  13. 一種包含如申請專利範圍第1項所述之一裝置的音訊解碼器。
  14. 一種用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態的方法,該方法包含:利用一相位語音編碼器基於該輸入信號表示型態獲得該擴充頻寬信號之一第一修補之一頻域表示型態的值;及複製該第一修補之該頻域表示型態之一組由該相位語音編碼器提供的值來獲得一第二修補之一頻域表示型態的一組值,其中該第二修補與比該第一修補更高的頻率相關聯;及利用該第一修補之該頻域表示型態的該等值與該第二修補之該頻域表示型態的該等值來獲得該擴充頻寬信號的該表示型態。
  15. 一種用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之裝置,該裝置包含:一值複製工具,其被組態成複製該輸入信號表示型 態之一組值(β1 ...βξ )以獲得一第一修補之一頻域表示型態的一組值(βξ ...β ),其中該第一修補與比該輸入信號表示型態更高的頻率相關聯;及一相位語音編碼器,其被組態成基於該第一修補之該頻域表示型態的該等值(β4/3ξ ...β )來獲得該擴充頻寬信號之一第二修補之一頻域表示型態的值(β ...β ),其中該第二修補與比該第一修補更高的頻率相關聯;及其中該裝置被組態成利用該第一修補之該頻域表示型態的該等值與該第二修補之該頻域表示型態的該等值來獲得該擴充頻寬信號之該表示型態。
  16. 一種用以基於一輸入信號表示型態產生一擴充頻寬信號的一表示型態之方法,該方法包含:複製該輸入信號表示型態的值以基於該輸入信號表示型態來獲得該擴充頻寬信號之一第一修補之一頻域表示型態的值,其中該第一修補與比該輸入信號表示型態更高的頻率相關聯;及利用一相位語音編碼器基於該第一修補之該頻域表示型態之一組由該複製而被獲得的值來獲得該第二修補之該頻域表示型態的一組值,其中該第二修補與比該第一修補更高的頻率相關聯;及利用該第一修補之該頻域表示型態的該等值與該第二修補之該頻域表示型態的該等值來獲得該擴充頻寬信號之該表示型態。
  17. 一種電腦程式,當該電腦程式於一電腦上運行時用以執行如申請專利範圍第14項或申請專利範圍第16項所述之方法。
TW099110102A 2009-04-02 2010-04-01 用以基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置及方法和與其相關之音訊解碼器及電腦程式 TWI416507B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16612509P 2009-04-02 2009-04-02
US16806809P 2009-04-09 2009-04-09
EP09181008A EP2239732A1 (en) 2009-04-09 2009-12-30 Apparatus and method for generating a synthesis audio signal and for encoding an audio signal

Publications (2)

Publication Number Publication Date
TW201044379A TW201044379A (en) 2010-12-16
TWI416507B true TWI416507B (zh) 2013-11-21

Family

ID=42123165

Family Applications (2)

Application Number Title Priority Date Filing Date
TW099109379A TWI492222B (zh) 2009-04-09 2010-03-29 用以產生合成音訊信號及將音訊信號編碼之裝置與方法
TW099110102A TWI416507B (zh) 2009-04-02 2010-04-01 用以基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置及方法和與其相關之音訊解碼器及電腦程式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW099109379A TWI492222B (zh) 2009-04-09 2010-03-29 用以產生合成音訊信號及將音訊信號編碼之裝置與方法

Country Status (21)

Country Link
US (2) US9697838B2 (zh)
EP (3) EP2239732A1 (zh)
JP (2) JP5165106B2 (zh)
KR (2) KR101248321B1 (zh)
CN (2) CN102027537B (zh)
AR (3) AR076199A1 (zh)
AT (1) ATE534119T1 (zh)
AU (2) AU2010230129B2 (zh)
BR (1) BRPI1003636B1 (zh)
CA (2) CA2734973C (zh)
CO (1) CO6311123A2 (zh)
EG (1) EG26400A (zh)
ES (2) ES2396686T3 (zh)
HK (1) HK1159842A1 (zh)
MX (2) MX2011002419A (zh)
MY (2) MY153798A (zh)
PL (2) PL2269189T3 (zh)
RU (1) RU2501097C2 (zh)
SG (1) SG174113A1 (zh)
TW (2) TWI492222B (zh)
WO (2) WO2010112587A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI776236B (zh) * 2017-11-10 2022-09-01 弗勞恩霍夫爾協會 支援一組不同丟失消隱工具之音訊解碼器

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
EP4120263B1 (en) 2010-01-19 2023-08-09 Dolby International AB Improved subband block based harmonic transposition
AU2015203065B2 (en) * 2010-01-19 2017-05-11 Dolby International Ab Improved subband block based harmonic transposition
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5554876B2 (ja) * 2010-04-16 2014-07-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ガイドされた帯域幅拡張およびブラインド帯域幅拡張を用いて広帯域信号を生成するため装置、方法およびコンピュータプログラム
HUE028738T2 (en) 2010-06-09 2017-01-30 Panasonic Ip Corp America Bandwidth Extension Procedure, Bandwidth Extension Device, Program, Integrated Circuit, and Audio Decoder
BR112012024360B1 (pt) * 2010-07-19 2020-11-03 Dolby International Ab sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
PL3407352T3 (pl) * 2011-02-18 2022-08-08 Ntt Docomo, Inc. Dekoder mowy, koder mowy, sposób dekodowania mowy, sposób kodowania mowy, program do dekodowania mowy i program do kodowania mowy
DE102011106034A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und Vorrichtung zur Spektralbandreplikation und Verfahren und System zur Audiodecodierung
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
BR112013033900B1 (pt) * 2011-06-30 2022-03-15 Samsung Electronics Co., Ltd Método para gerar um sinal estendido de largura de banda para decodificação de áudio
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
EP3544006A1 (en) 2011-11-11 2019-09-25 Dolby International AB Upsampling using oversampled sbr
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
US9258428B2 (en) 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
CN103971693B (zh) 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
SG11201505912QA (en) 2013-01-29 2015-08-28 Fraunhofer Ges Forschung Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
MX345622B (es) * 2013-01-29 2017-02-08 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, método de decodificación, codificador para generar una señal codificada y metodo de codificación utilizando informacion secundaria de selección compacta.
KR101632238B1 (ko) * 2013-04-05 2016-06-21 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
JP6396459B2 (ja) * 2013-10-31 2018-09-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張
EP2881943A1 (en) * 2013-12-09 2015-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal with low computational resources
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
KR102244612B1 (ko) * 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
KR102306537B1 (ko) 2014-12-04 2021-09-29 삼성전자주식회사 소리 신호를 처리하는 방법 및 디바이스.
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016149085A2 (en) * 2015-03-13 2016-09-22 Psyx Research, Inc. System and method for dynamic recovery of audio data and compressed audio enhancement
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
TWI742486B (zh) * 2019-12-16 2021-10-11 宏正自動科技股份有限公司 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體
GB202203733D0 (en) * 2022-03-17 2022-05-04 Samsung Electronics Co Ltd Patched multi-condition training for robust speech recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
WO2001082289A2 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US20070238415A1 (en) * 2005-10-07 2007-10-11 Deepen Sinha Method and apparatus for encoding and decoding

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5127054A (en) 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH10124088A (ja) 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6549884B1 (en) 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US20020016698A1 (en) * 2000-06-26 2002-02-07 Toshimichi Tokuda Device and method for audio frequency range expansion
JP2002082685A (ja) * 2000-06-26 2002-03-22 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
SE0004818D0 (sv) 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
CN1272911C (zh) 2001-07-13 2006-08-30 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
US6988066B2 (en) 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
JP3926726B2 (ja) * 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
TWI288915B (en) 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US20040138876A1 (en) 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
KR100917464B1 (ko) 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
FI119533B (fi) 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
EP1798724B1 (en) 2004-11-05 2014-06-18 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
JP2006243041A (ja) 2005-02-28 2006-09-14 Yutaka Yamamoto 高域補間装置及び再生装置
KR20070115637A (ko) 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
EP1970900A1 (en) 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal
CN101276587B (zh) * 2007-03-27 2012-02-01 北京天籁传音数字技术有限公司 声音编码装置及其方法和声音解码装置及其方法
HUE041323T2 (hu) * 2007-08-27 2019-05-28 Ericsson Telefon Ab L M Eljárás és eszköz hangjel észlelési spektrális dekódolására, beleértve a spektrális lyukak kitöltését
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
JP5098569B2 (ja) 2007-10-25 2012-12-12 ヤマハ株式会社 帯域拡張再生装置
CN101896968A (zh) 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
RU2483368C2 (ru) 2007-11-06 2013-05-27 Нокиа Корпорейшн Кодер
EP2229677B1 (en) 2007-12-18 2015-09-16 LG Electronics Inc. A method and an apparatus for processing an audio signal
ES2796552T3 (es) 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
US8831958B2 (en) 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
BR122019023704B1 (pt) 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
DK2211339T3 (en) 2009-01-23 2017-08-28 Oticon As listening System
US8781844B2 (en) 2009-09-25 2014-07-15 Nokia Corporation Audio coding
KR101370870B1 (ko) * 2009-12-16 2014-03-07 돌비 인터네셔널 에이비 Sbr 비트스트림 파라미터 다운믹스

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
WO2001082289A2 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US20070238415A1 (en) * 2005-10-07 2007-10-11 Deepen Sinha Method and apparatus for encoding and decoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI776236B (zh) * 2017-11-10 2022-09-01 弗勞恩霍夫爾協會 支援一組不同丟失消隱工具之音訊解碼器

Also Published As

Publication number Publication date
RU2011109670A (ru) 2012-09-27
RU2501097C2 (ru) 2013-12-10
CN102177545B (zh) 2013-03-27
BR122021012115A2 (pt) 2023-01-03
AU2010230129A1 (en) 2010-10-07
CN102027537A (zh) 2011-04-20
CA2721629C (en) 2015-10-13
EP2351025A1 (en) 2011-08-03
CN102177545A (zh) 2011-09-07
MX2011002419A (es) 2011-04-05
MY153798A (en) 2015-03-31
CA2734973C (en) 2016-10-18
TWI492222B (zh) 2015-07-11
ES2377551T3 (es) 2012-03-28
JP5165106B2 (ja) 2013-03-21
BRPI1003636B1 (pt) 2020-11-24
MX2010012343A (es) 2011-02-23
BR122021012137A2 (pt) 2023-01-03
US9697838B2 (en) 2017-07-04
JP5227459B2 (ja) 2013-07-03
BR122021012145A2 (pt) 2023-01-03
EP2269189A1 (en) 2011-01-05
SG174113A1 (en) 2011-10-28
AU2010233858B2 (en) 2013-05-16
CN102027537B (zh) 2012-10-03
CA2721629A1 (en) 2010-10-07
ES2396686T3 (es) 2013-02-25
AR097531A2 (es) 2016-03-23
ATE534119T1 (de) 2011-12-15
US20120010880A1 (en) 2012-01-12
BRPI1003636A2 (pt) 2019-07-02
EP2269189B1 (en) 2011-11-16
TW201044378A (en) 2010-12-16
US20130090934A1 (en) 2013-04-11
EP2351025B1 (en) 2012-11-14
CO6311123A2 (es) 2011-08-22
BRPI1001239A2 (pt) 2022-11-22
AU2010233858B9 (en) 2013-05-30
JP2012504781A (ja) 2012-02-23
PL2269189T3 (pl) 2012-04-30
AR076237A1 (es) 2011-05-26
KR101248321B1 (ko) 2013-03-27
AR076199A1 (es) 2011-05-26
TW201044379A (en) 2010-12-16
BR122021012125A2 (pt) 2023-01-03
BR122021012290A2 (pt) 2023-01-03
KR20110081292A (ko) 2011-07-13
AU2010233858A1 (en) 2010-10-14
PL2351025T3 (pl) 2013-04-30
WO2010112587A1 (en) 2010-10-07
KR101207120B1 (ko) 2012-12-03
EP2239732A1 (en) 2010-10-13
US9076433B2 (en) 2015-07-07
KR20110005865A (ko) 2011-01-19
WO2010115845A1 (en) 2010-10-14
JP2011520146A (ja) 2011-07-14
CA2734973A1 (en) 2010-10-14
EG26400A (en) 2013-10-09
AU2010230129B2 (en) 2011-09-29
MY151346A (en) 2014-05-15
HK1159842A1 (en) 2012-08-03

Similar Documents

Publication Publication Date Title
TWI416507B (zh) 用以基於輸入信號表示型態產生擴充頻寬信號之表示型態的裝置及方法和與其相關之音訊解碼器及電腦程式
TWI444991B (zh) 用以利用補丁邊界對齊處理音訊信號之裝置與方法
US10909994B2 (en) Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
JP2020170186A (ja) 高周波再構成の際のオーディオ信号処理
TWI505265B (zh) 操縱具有瞬變事件的音頻信號的設備和方法以及具有執行該方法之程式碼的電腦程式
TWI415116B (zh) 用以產生帶寬擴展信號之裝置與方法
BR122021012290B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012115B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BRPI1001239B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012137B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012125B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica