TWI524333B

TWI524333B - 用以產生頻率增強音訊信號之解碼器與方法、用以產生編碼信號之編碼器與方法、以及儲存媒體

Info

Publication number: TWI524333B
Application number: TW103103520A
Authority: TW
Inventors: 費德瑞克納吉爾; 薩斯洽迪斯曲; 安德烈斯尼德梅耶
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-01-29
Filing date: 2014-01-29
Publication date: 2016-03-01
Also published as: TWI585755B; MY172752A; EP3203471B1; US20150332701A1; CA3013756C; EP3203471A1; US10062390B2; KR20160099119A; US10186274B2; KR101798126B1; CN109509483A; ES2924427T3; TW201443889A; JP6096934B2; RU2676242C1; AU2016262636B2; KR20150111977A; TWI585754B; EP3196878B1; ZA201506313B

Description

用以產生頻率增強音訊信號之解碼器與方法、用以產生編碼信號之編碼器與方法、以及儲存媒體

發明領域

本發明係關於音訊寫碼(audio coding)，且特別係關於在頻率增強(亦即，解碼器輸出信號相比於編碼信號具有較多數目個頻帶)之上下文中的音訊寫碼。此等程序包含頻寬擴展(bandwidth extension)、頻譜複製(spectral replication)或智慧間隙填充(intelligent gap filling)。

發明背景

當代話語寫碼系統(speech coding system)能夠在低至6千位元/秒之位元速率下對寬頻(wideband,WB)數位音訊內容(亦即，具有高達7kHz至8kHz之頻率的信號)編碼。經最廣泛論述之實例為ITU-T建議G.722.2[1]，以及經新近開發之G.718[4、10]及MPEG-D統一話語與音訊寫碼(Unified Speech and Audio Coding,USAC)[8]。G.722.2(亦被稱為AMR-WB)及G.718兩者使用介於6.4kHz與7kHz之間的頻寬擴展(BWE)技術以允許基礎ACELP核心寫碼器「集中(focus)」於感知上較相關之較低頻率(特別是人類聽覺系統為相位敏感時之頻率)，且藉此尤其在極低位元速率下達成足夠品質。在USAC擴展高效率進階音訊寫碼(eXtended High Efficiency Advanced Audio Coding,xHE-AAC)設定檔中，使用增強頻譜帶複製(enhanced spectral band replication,eSBR)以將音訊頻寬擴展成超出通常在16千位元/秒下低於6kHz之核心寫碼器頻寬。當前先進技術BWE處理序通常可被劃分成兩種概念性途徑：

■盲(blind)或仿真(artificial)BWE，其中高頻(high-frequency,HF)分量係單獨地自解碼低頻(low-frequency,LF)核心寫碼器信號重新建構，亦即，無需自編碼器傳輸之旁側資訊。此方案係由在16千位元/秒及16千位元/秒以下之AMR-WB及G.718以及對傳統窄頻電話話語[5、9、12]操作之一些回溯相容BWE後處理器使用(實例：圖15)。

■導引式(guided)BWE，其不同於盲BWE之處在於：用於HF成分重新建構之參數中之一些係作為旁側資訊被傳輸至解碼器，而非自解碼核心信號被估計。AMR-WB、G.718、xHE-AAC以及一些其他編解碼器[2、7、11]使用此途徑，但不在極低位元速率下(圖16)。

圖15說明如Bernd Geiser、Peter Jax及Peter Vary之公開案「ROBUST WIDEBAND ENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTH EXTENSION」(國際聲學回音與雜訊控制工作組(International Workshop on Acoustic Echo and Noise Control,IWAENC)學報，2005年)中描述的此盲或仿真頻寬擴展。圖15所說明之獨立頻寬擴展演算法包含內插程序1500、分析濾波器1600、激勵擴展1700、合成濾波器1800、特徵提取程序1510、包絡估計程序1520及統計模型1530。在窄頻信號至寬頻取樣率之內插之後，計算特徵向量。接著，借助於經預訓練之統計隱式馬爾可夫模型(hidden Markov model,HMM)，依據線性預測(linear prediction,LP)係數來判定針對寬頻頻譜包絡之估計。將此等寬頻係數用於內插窄頻信號之分析濾波。在所得激勵之擴展之後，應用反向合成濾波器(inverse synthesis filter)。不會更改窄頻之激勵擴展的選擇對於窄頻分量係明顯的。

圖16說明如上述公開案中描述的具有旁側資訊之頻寬擴展，該頻寬擴展包含電話帶通1620、旁側資訊提取區塊1610、(聯合)編碼器1630、解碼器1640及頻寬擴展區塊1650。圖16中說明用以藉由組合式寫碼及頻寬擴展而對誤差帶話語信號進行寬頻增強之此系統。在傳輸終端機處，分析寬頻輸入信號之高頻帶頻譜包絡且判定旁側資訊。分離地抑或與窄頻話語信號聯合地對所得訊息m編碼。在接收器處，使用解碼器旁側資訊以支援頻寬擴展演算法內的寬頻包絡之估計。訊息m係藉由若干程序而獲得。自僅可在發送側處得到之寬頻信號提取3,4kHz至7kHz之頻率之頻譜表示。

此次頻帶包絡係藉由選擇性線性預測而計算，亦即，計算寬頻功率譜，接著計算其上部頻帶分量之IDFT及階8之後續李文生-杜賓遞迴(Levinson-Durbin recursion)。將所得次頻帶LPC係數轉換成倒頻譜域(cepstral domain)，且最後由具有大小M=2^N之碼簿的向量量化器使該等次頻帶LPC係數量化。對於20ms之訊框長度，此情形引起300位元/秒之旁側資訊資料速率。一組合式估計途徑擴展後驗機率之計算且重新引入對窄頻特徵之相依性。因此，獲得改良形式之錯誤隱藏(error concealment)，其將一個以上資訊來源用於其參數估計。

可在低位元速率(通常低於10千位元/秒)下觀察到WB編解碼器中之某一品質兩難推論(quality dilemma)。一方面，此等速率已經太低而不能使甚至中等量之BWE資料的傳輸適當化，從而排除具有1千位元/秒或更大之旁側資訊的典型導引式BWE系統。另一方面，可行盲BWE被發現為歸因於不能夠自核心信號進行適當參數預測而使得對至少一些類型之話語或音樂材料的探測顯著地較差。對於諸如具有HF與LF之間的低相關性之摩擦音的一些口聲尤其如此。因此，需要將導引式BWE方案之旁側資訊速率減小至遠低於1千位元/秒之位準，此情形將允許即使在極低位元速率寫碼中亦採用該旁側資訊速率。

近年來已記載繁多的BWE途徑[1至10]。一般而言，所有此等途徑在給定操作點處為完全盲或完全導引式，而不管輸入信號之瞬時特性如何。此外，許多盲BWE系統[1、3、4、5、9、10]係特定地針對話語信號而非針對音樂而最佳化，且因此可得到對於音樂不令人滿意之結果。最後，大多數BWE實現在計算上相對複雜，其使用旁側資訊之傅立葉(Fourier)變換、LPC濾波器計算或向量量化(MPEG-D USAC中之預測性向量寫碼[8])。此情形可為在行動電信市場中採用新寫碼技術方面之劣勢，此係假定大多數行動器件提供極有限之計算能力及電池容量。

[12]中呈現且圖16中說明藉由小旁側資訊來擴展盲BWE之途徑。然而，旁側資訊「m」限於頻寬擴展頻率範圍之頻譜包絡的傳輸。

圖16所說明之程序的另外問題為一方面使用低頻帶特徵且另一方面使用額外包絡旁側資訊之包絡估計的極複雜方式。兩個輸入(亦即，低頻帶特徵及額外高頻帶包絡)影響統計模型。此情形引起複雜的解碼器側實施，其歸因於增加之電力消耗而對於行動器件尤其有問題。此外，歸因於統計模型並非僅受到額外高頻帶包絡資料影響之事實，統計模型甚至更難以更新。

發明概要

本發明之一目標係提供音訊編碼/解碼之改良概念。

此目標係由以下各者達成：一種根據請求項1之解碼器、一種根據請求項15之編碼器、一種根據請求項20之解碼方法、一種根據請求項21之編碼方法、一種根據請求項22之電腦程式，或一種根據請求項23之編碼信號。

本發明係基於如下發現：為了甚至更多地減小旁側資訊之量，且另外，為了使整個編碼器/解碼器不過度地複雜，必須藉由實際上關於與特徵提取器一起用於頻率增強解碼器上之統計模型的選擇旁側資訊來替換或至少增強高頻帶部分之先前技術參數編碼。歸因於結合統計模型之特徵提取提供尤其針對某些話語部分具有模糊度之參數表示替代例的事實，已發現，實際上控制解碼器側上之參數產生器(其所提供之替代例可為最佳替代例)內的統計模型優於實際上以參數方式對信號之某一特性寫碼，尤其是在用於頻寬擴展之旁側資訊受到限制的極低位元速率應用中。

因此，藉由具有小額外旁側資訊之擴展而改良盲BWE(其利用用於寫碼信號之來源模型)，尤其是在該信號自身不允許以可接受之感知品質位準來重新建構HF成分的情況下。該程序因此藉由額外資訊來組合該來源模型之參數，該等參數係自寫碼核心寫碼器內容而產生。此情形特別有利於增強難以在此來源模型內寫碼之聲音的感知品質。此等聲音通常展現HF成分與LF成分之間的低相關性。

本發明處理習知BWE在極低位元速率音訊寫碼中之問題以及現有先進技術BWE技術之缺點。藉由提議一最低限度導引式BWE作為盲BWE與導引式BWE之信號調適性組合而提供對上述品質兩難推論之解決方案。本發明之BWE將一些小旁側資訊加至信號，其允許進一步鑑別以其他方式有問題之寫碼聲音。在話語寫碼中，此情形特別適用於齒音或摩擦音。

已發現，在WB編解碼器中，核心寫碼器區域上方的HF區域之頻譜包絡表示執行具有可接受之感知品質之BWE所必要的最關鍵資料。所有其他參數(諸如，頻譜精細結構及時間包絡)常常係可相當準確地自解碼核心信號而導出，或具有很少感知重要性。然而，摩擦音在BWE信號中常常缺乏適當再現。旁側資訊因此可包括區別諸如「f」、「s」、「ch」及「sh」之不同齒音或摩擦音的額外資訊。

當出現諸如「t」或「tsch」之爆破音或塞擦音時，存在用於頻寬擴展之其他有問題聲學資訊。

本發明允許僅使用此旁側資訊，且實際上在必要的情況下傳輸此旁側資訊且在統計模型中不存在預期模糊度時不傳輸此旁側資訊。

此外，本發明之較佳實施例僅使用諸如每訊框三個或三個以下位元的極少量之旁側資訊、用以控制信號估計器之組合式語音活動偵測/話語/非話語偵測、由信號分類器判定之不同統計模型，或參數表示替代例，該等參數表示替代例不僅涉及包絡估計，而且涉及其他頻寬擴展工具，或頻寬擴展參數之改良，或新參數至已經存在且經實際上傳輸之頻寬擴展參數的相加。

100‧‧‧核心信號

104、1302‧‧‧特徵提取器

108‧‧‧參數產生器

110‧‧‧旁側資訊提取器

112‧‧‧特徵

114、1210‧‧‧選擇旁側資訊

116‧‧‧參數表示

118、1306‧‧‧信號估計器

120、1307‧‧‧頻率增強音訊信號

124、1300‧‧‧核心解碼器

200‧‧‧編碼輸入信號

201‧‧‧編碼核心信號

400、402、404、406、408‧‧‧步驟

500‧‧‧語音活動偵測器或話語/ 非話語偵測器

502、504‧‧‧切換器

511、513‧‧‧頻寬擴展技術

514‧‧‧頻寬擴展參數

600‧‧‧第一統計模型

602‧‧‧第二統計模型

604‧‧‧選擇器

605‧‧‧線

606‧‧‧信號分類器/線

702、704、706、708、1305‧‧‧參數表示替代例

712、714、716、718‧‧‧位元型樣

800、806、812‧‧‧訊框

900‧‧‧內插器

902‧‧‧包絡估計

904、1530‧‧‧統計模型

909‧‧‧音訊信號

910、1600‧‧‧分析濾波器

912、914‧‧‧區塊

1000‧‧‧組合器

1020‧‧‧雜訊底限相加

1040‧‧‧反向濾波器

1060‧‧‧頻譜包絡調整

1080‧‧‧遺漏載頻調之相加

1100‧‧‧SBR旁側資訊

1200‧‧‧核心編碼器

1202‧‧‧選擇旁側資訊產生器

1206‧‧‧原始信號

1208‧‧‧編碼音訊信號

1204‧‧‧輸出介面

1212‧‧‧編碼信號

1304‧‧‧統計模型處理器

1308‧‧‧比較器

1400‧‧‧中繼資料提取器

1402‧‧‧中繼資料轉譯器

1500‧‧‧內插程序

1510‧‧‧特徵提取程序

1520‧‧‧包絡估計程序

1610‧‧‧旁側資訊提取區塊

1620‧‧‧電話帶通

1630‧‧‧(聯合)編碼器

1640‧‧‧解碼器

1650‧‧‧頻寬擴展區塊

1700‧‧‧激勵擴展

1800‧‧‧合成濾波器

隨後在隨附圖式之上下文中論述本發明之較佳實施例，且亦在附屬請求項中闡述本發明之較佳實施例。

圖1說明用以產生頻率增強音訊信號之解碼器；圖2說明在圖1之旁側資訊提取器之上下文中的較佳實施；圖3說明關於選擇旁側資訊之位元之數目至參數表示替代例之數目的資料表；圖4說明在參數產生器中執行之較佳程序；圖5說明由語音活動偵測器或話語/非話語偵測器控制之信號估計器之較佳實施；圖6說明由信號分類器控制之參數產生器之較佳實施；圖7說明用於統計模型之結果及關聯選擇旁側資訊之實例；圖8說明包含編碼核心信號及關聯旁側資訊之例示性編碼信號；圖9說明用於包絡估計改良之頻寬擴展信號處理方案；圖10說明解碼器在頻譜帶複製程序之上下文中之另外實施；圖11說明解碼器在經另外傳輸之旁側資訊之上下文中之另外實施例；圖12說明用以產生編碼信號之編碼器之實施例；圖13說明圖12之選擇旁側資訊產生器之實施；圖14說明圖12之選擇旁側資訊產生器之另外實施；圖15說明先前技術獨立頻寬擴展演算法；及圖16說明具有附加訊息之傳輸系統之概觀。

較佳實施例之詳細說明

圖1說明用以產生頻率增強音訊信號120之解碼器。該解碼器包含用以自核心信號100提取(至少)特徵之特徵提取器104。通常，該特徵提取器可提取單一特徵或複數個特徵，亦即，兩個或兩個以上特徵，且甚至較佳的是，由該特徵提取器提取複數個特徵。此情形不僅適用於解碼器中之特徵提取器，而且適用於編碼器中之特徵提取器。

此外，提供用以提取與核心信號100相關聯之選擇旁側資訊114的旁側資訊提取器110。另外，參數產生器108經由特徵傳輸線112而連接至特徵提取器104，且經由選擇旁側資訊114而連接至旁側資訊提取器110。參數產生器108經組配成用以產生用以估計未由核心信號界定的頻率增強音訊信號之頻譜範圍的參數表示。參數產生器108經組配以回應於特徵112而提供數個參數表示替代例，且回應於選擇旁側資訊114而選擇該等參數表示替代例中之一者作為參數表示。此外，解碼器包含用以使用由選擇器選擇之參數表示(亦即，參數表示116)來估計頻率增強音訊信號的信號估計器118。

特定言之，特徵提取器104可經實施以自解碼核心信號進行提取，如圖2所說明。接著，輸入介面110經組配成用以接收編碼輸入信號200。此編碼輸入信號200經輸入至介面110中，且輸入介面110接著使選擇旁側資訊與編碼核心信號分離。因此，輸入介面110作為圖1中之旁側資訊提取器110而操作。由輸入介面110輸出之編碼核心信號201接著經輸入至核心解碼器124中，以提供可為核心信號100之解碼核心信號。

然而，替代地，特徵提取器亦可操作或自編碼核心信號提取特徵。通常，編碼核心信號包含用於頻帶之比例因子之表示，或音訊資訊之任何其他表示。取決於特徵提取之種類，音訊信號之編碼表示對於解碼核心信號係代表性的，且因此可提取特徵。替代地或另外，可不僅自完全解碼核心信號提取特徵，而且自部分解碼核心信號提取特徵。在頻域寫碼中，編碼信號表示包含一連串頻譜訊框之頻域表示。因此，在實際上執行頻譜至時間轉換之前，可僅對編碼核心信號部分地解碼以獲得一連串頻譜訊框之解碼表示。因此，特徵提取器104可自編碼核心信號抑或部分解碼核心信號或完全解碼核心信號提取特徵。特徵提取器104係可如在此項技術中所知而關於其經提取特徵加以實施，且該特徵提取器係可(例如)如在音訊指紋或音訊ID技術中加以實施。

較佳地，選擇旁側資訊114包含核心信號的每訊框數目N個位元。圖3說明用於不同替代例之資料表。用於選擇旁側資訊的位元之數目係固定的，抑或取決於由統計模型回應於經提取特徵而提供之參數表示替代例之數目加以選擇。當由統計模型回應於特徵而提供僅兩個參數表示替代例時，選擇旁側資訊之一個位元之係足夠的。當由統計模型提供最大數目四個表示替代例時，則兩個位元為選擇旁側資訊所必要。選擇旁側資訊之三個位元允許最多八個並行參數表示替代例。選擇旁側資訊之四個位元實際上允許16個參數表示替代例，且選擇旁側資訊之五個位元允許32個並行參數表示替代例。較佳的是僅使用每訊框的選擇旁側資訊之三個或小於三個位元，從而在將一秒劃分成50個訊框時引起150個位元/秒之旁側資訊速率。歸因於選擇旁側資訊僅在統計模型實際上提供表示替代例時才為必要之事實，此旁側資訊速率甚至可減小。因此，當統計模型僅提供用於特徵之單一替代例時，則選擇旁側資訊位元根本不為必要的。另一方面，當統計模型僅提供四個參數表示替代例時，則選擇旁側資訊之僅兩個位元而非三個位元為必要的。因此，在典型狀況下，額外旁側資訊速率甚至可減小至低於150個位元/秒。

此外，參數產生器經組配以至多提供量等於2^N之參數表示替代例。另一方面，當參數產生器108提供(例如)僅五個參數表示替代例時，則仍然需要選擇旁側資訊之三個位元。

圖4說明參數產生器108之較佳實施。特定言之，參數產生器108經組配成使得圖1之特徵112經輸入至統計模型中，如在步驟400處所概括。接著，如在步驟402中所概括，由該模型提供複數個參數表示替代例。

此外，參數產生器108經組配成用以自旁側資訊提取器擷取選擇旁側資訊114，如在步驟404中所概括。接著，在步驟406中，使用選擇旁側資訊114來選擇特定參數表示替代例。最後，在步驟408中，將選定參數表示替代例輸入至信號估計器118。

較佳地，參數產生器108經組配以在選擇該等參數表示替代例中之一者時使用該等參數表示替代例之預定義次序，或替代地，使用該等表示替代例之編碼器信號次序。為此，參看圖7。圖7說明提供四個參數表示替代例702、704、706、708之統計模型之結果。亦說明對應選擇旁側資訊碼。替代例702對應於位元型樣712。替代例704對應於位元型樣714。替代例706對應於位元型樣716，且替代例708對應於位元型樣718。因此，當參數產生器108或(例如)步驟402以圖7所說明之次序來擷取四個替代例702至708時，則具有位元型樣716之選擇旁側資訊將唯一地識別參數表示替代例3(參考編號706)，且參數產生器108接著將選擇此第三替代例。然而，當選擇旁側資訊位元型樣為位元型樣712時，則將選擇第一替代例702。

因此，參數表示替代例之預定義次序可為統計模型回應於經提取特徵而實際上遞送該等替代例之次序。替代地，若個別替代例具有關聯不同機率(然而，該等機率彼此相當接近)，則預定義次序可為：最高機率參數表示最先出現，等等。替代地，該次序係可(例如)由單一位元傳信，但為了甚至節省此位元，預定義次序係較佳的。

隨後，參看圖9至圖11。

在根據圖9之實施例中，本發明特別適合於話語信號，此係因為將專用話語來源模型用於參數提取。然而，本發明並不限於話語寫碼。不同實施例亦可使用其他來源模型。

特定言之，選擇旁側資訊114亦被稱為「摩擦音資訊(fricative information)」，此係因為此選擇旁側資訊區別諸如「f」、「s」或「sh」之有問題齒音或摩擦音。因此，選擇旁側資訊提供三個有問題替代例中之一者的清晰定義，該三個有問題替代例係(例如)由統計模型904在包絡估計902之處理序中提供，該等提供皆係在參數產生器108中執行。包絡估計引起未包括於核心信號中之頻譜部分之頻譜包絡的參數表示。

因此，區塊104可對應於圖15之區塊1510。此外，圖15之區塊1530可對應於圖9之統計模型904。

此外，較佳的是，信號估計器118包含分析濾波器910、激勵擴展區塊112及合成濾波器940。因此，區塊910、912、914可對應於圖15之區塊1600、1700及1800。特定言之，分析濾波器910為LPC分析濾波器。包絡估計區塊902控制分析濾波器910之濾波器係數，使得區塊910之結果為濾波器激勵信號。此濾波器激勵信號已相對於頻率被擴展，以便在區塊912之輸出處獲得一激勵信號，該激勵信號不僅具有用於輸出信號的解碼器120之頻率範圍，而且具有未由核心寫碼器界定及/或超過核心信號之頻譜範圍的頻率或頻譜範圍。因此，對解碼器之輸出處的音訊信號909升取樣，且由內插器900對音訊信號909內插，且接著，使內插信號經受信號估計器118中之處理序。因此，圖9中之內插器900可對應於圖15之內插器1500。然而，較佳地，與圖15對比，特徵提取104係使用非內插信號予以執行，而非如圖15所說明來對內插信號予以執行。此情形有利之處在於特徵提取器104歸因於如下事實而更有效地操作：與區塊900之輸出處的經升取樣且經內插之信號相比較，非內插音訊信號909相比於音訊信號之某一時間部分具有較少數目個樣本。

圖10說明本發明之一另外實施例。與圖9對比，圖10具有統計模型904，其不僅提供如在圖9中之包絡估計，而且提供包含用以產生遺漏載頻調1080之資訊或用於反向濾波1040之資訊或關於待相加之雜訊底限1020之資訊的額外參數表示。區塊1020、區塊1040、頻譜包絡產生1060及遺漏載頻調1080之程序被描述於在高效率進階音訊寫碼(HE-AAC)之上下文中的MPEG-4標準中。

因此，亦可如圖10所說明來對不同於話語之其他信號寫碼。在彼狀況下，可能並不足夠的是單獨地對頻譜包絡1060寫碼，而亦進一步對諸如調性(1040)、雜訊位準(1020)或遺漏正弦波(1080)之旁側資訊寫碼，如在[6]中說明之頻譜帶複製(spectral band replication,SBR)技術中所進行。

圖11中說明一另外實施例，其中除了以1100所說明之SBR旁側資訊以外，亦使用旁側資訊114，亦即，選擇旁側資訊。因此，將包含(例如)關於經偵測話語聲音之資訊的選擇旁側資訊加至舊版SBR旁側資訊1100。此情形幫助較準確地重新產生用於話語聲音之高頻成分，諸如，包括摩擦音、爆破音或母音之齒音。因此，圖11所說明之程序具有如下優勢：經另外傳輸之選擇旁側資訊114支援解碼器側(音素(phonem))分類，以便提供SBR或頻寬擴展(BWE)參數之解碼器側調適。因此，與圖10對比，圖11之實施例除了提供選擇旁側資訊以外亦提供舊版SBR旁側資訊。

圖8說明編碼輸入信號之例示性表示。編碼輸入信號由後續訊框800、806、812組成。每一訊框具有編碼核心信號。例示性地，訊框800具有話語作為編碼核心信號。訊框806具有音樂作為編碼核心信號，且訊框812再次具有話語作為編碼核心信號。例示性地，訊框800僅具有選擇旁側資訊作為旁側資訊，而無SBR旁側資訊。因此，訊框800對應於圖9或圖10。例示性地，訊框806包含SBR資訊，但不含有任何選擇旁側資訊。此外，訊框812包含編碼話語信號，且與訊框800對比，訊框812不含有任何選擇旁側資訊。此係歸因於如下事實：因為在編碼器側上尚未發現特徵提取/統計模型處理序之任何模糊度，所以選擇旁側資訊不為必要的。

隨後，描述圖5。使用對核心信號操作之語音活動偵測器或話語/非話語偵測器500，以便決定應使用本發明之頻寬或頻率增強技術抑或不同頻寬擴展技術。因此，當語音活動偵測器或話語/非話語偵測器偵測到語音或話語時，則使用以511所說明之第一頻寬擴展技術BWEXT.1，其(例如)如圖1、圖9、圖10、圖11所論述而操作。因此，切換器502、504經設定成使得自輸入512採取來自參數產生器之參數，且切換器504將此等參數連接至區塊511。然而，當由偵測器500偵測到未展示任何話語信號但(例如)展示音樂信號之情形時，則較佳地將來自位元串流之頻寬擴展參數514輸入至另一頻寬擴展技術程序513中。因此，偵測器500偵測是否應使用本發明之頻寬擴展技術511。對於非話語信號，寫碼器可切換至由區塊513說明之其他頻寬擴展技術，諸如，[6、8]中提及之技術。因此，圖5之信號估計器118經組配以在偵測器500偵測到非語音活動或非話語信號時轉接至不同頻寬擴展程序及/或使用自編碼信號提取之不同參數。對於此不同頻寬擴展技術513，在位元串流中較佳地不存在選擇旁側資訊且亦不使用選擇旁側資訊，此情形係在圖5中藉由將切換器502斷開至輸入514加以象徵。

圖6說明參數產生器108之另外實施。參數產生器108較佳地具有複數個統計模型，諸如，第一統計模型600及第二統計模型602。此外，提供選擇器604，其係由選擇旁側資訊控制以提供正確參數表示替代例。哪一統計模型在作用中係由額外信號分類器606控制，額外信號分類器606在其輸入處接收核心信號，亦即，相同於輸入至特徵提取器104中之信號的信號。因此，圖10中或任何其他圖中之統計模型可隨著寫碼內容而變化。對於話語，使用表示話語產生來源模型之統計模型，而對於如(例如)由信號分類器 606分類之其他信號(諸如，音樂信號)，使用依據大型音樂資料集而訓練之不同模型。另外，其他統計模型有用於不同語言等等。

如之前所論述，圖7說明如由諸如統計模型600之統計模型獲得的複數個替代例。因此，區塊600之輸出係(例如)用於如以平行線605所說明之不同替代例。以相同方式，第二統計模型602亦可輸出複數個替代例，諸如，對於如以線606所說明之替代例。取決於特定統計模型，較佳的是，僅輸出相對於特徵提取器104具有相當高機率之替代例。因此，統計模型回應於特徵而提供複數個替代參數表示，其中每一替代參數表示具有相同於其他不同替代參數表示之機率或與其他替代參數表示之機率相差小於10%的機率。因此，在一實施例中，僅輸出具有最高機率之參數表示，及皆具有比最佳匹配替代例之機率小僅10%之機率的數個其他替代參數表示。

圖12說明用以產生編碼信號1212之編碼器。該編碼器包含核心編碼器1200，其用以對原始信號1206編碼以獲得相比於原始信號1206具有關於較少數目個頻帶之資訊的編碼核心音訊信號1208。此外，提供用以產生選擇旁側資訊1210(SSI-選擇旁側資訊)之選擇旁側資訊產生器1202。選擇旁側資訊1210指示由統計模型回應於自原始信號1206或自編碼音訊信號1208或自編碼音訊信號之解碼版本提取之特徵而提供的已界定參數表示替代例。此外，編碼器包含用以輸出編碼信號1212之輸出介面1204。編碼信號1212包含編碼音訊信號1208及選擇旁側資訊1210。較佳地，如圖13所說明來實施選擇旁側資訊產生器1202。為此，選擇旁側資訊產生器1202包含核心解碼器1300。提供特徵提取器1302，其對由區塊1300輸出之解碼核心信號操作。將特徵輸入至統計模型處理器1304中，統計模型處理器1304用以產生用以估計未由區塊1300所輸出之解碼核心信號界定的頻率增強信號之頻譜範圍的數個參數表示替代例。將此等參數表示替代例1305皆輸入至用以估計頻率增強音訊信號1307之信號估計器1306中。接著將此等經估計頻率增強音訊信號1307輸入至用以比較頻率增強音訊信號1307與圖12之原始信號1206的比較器1308中。選擇旁側資訊產生器1202經另外組配以設定選擇旁側資訊1210，使得該選擇旁側資訊唯一地定義根據一最佳化準則而引起與原始信號最佳地匹配之頻率增強音訊信號的參數表示替代例。該最佳化準則可為以最小均方差(minimum means squared error,MMSE)為基礎之準則、使逐樣本差最小化之準則，或較佳地為使認知失真最小化之音質準則，或為熟習此項技術者所知之任何其他最佳化準則。

雖然圖13說明封閉迴路(closed-loop)或合成式分析(analysis-by-synthesis)程序，但圖14說明更相似於開放迴路(open-loop)程序的選擇旁側資訊1202之替代實施。在圖14之實施例中，原始信號1206包含用於選擇旁側資訊產生器1202之關聯中繼資訊(meta information)，其描述用於原始音訊信號之一連串樣本的一連串聲學資訊(例如，註解)。在此實施例中，選擇旁側資訊產生器1202包含用以提取該一連串中繼資訊之中繼資料提取器1400，且另外包含一中繼資料轉譯器，其通常具有關於解碼器側上使用之統計模型的知識而用以將該一連串中繼資訊轉譯成與原始音訊信號相關聯之一連串選擇旁側資訊1210。在編碼器中捨棄且在編碼信號1212中不傳輸由中繼資料提取器1400提取之中繼資料。取而代之，在編碼信號中傳輸選擇旁側資訊1210，連同由核心編碼器產生之編碼音訊信號1208，其相比於經最後產生之解碼信號或相比於原始信號1206具有不同頻率成分且通常具有較少頻率成分。

由選擇旁側資訊產生器1202產生之選擇旁側資訊1210可具有如在早先諸圖之上下文中論述的特性中任一者。

雖然已在方塊圖(其中區塊表示實際或邏輯硬體組件)之上下文中描述本發明，但本發明亦係可由電腦實施方法實施。在後者狀況下，區塊表示對應方法步驟，其中此等步驟代表由對應邏輯或實體硬體區塊執行之功能性。

雖然已在裝置之上下文中描述一些態樣，但很顯然，此等態樣亦表示對應方法之描述，其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地，在方法步驟之上下文中描述的態樣亦表示對應裝置之對應區塊或項目或特徵的描述。該等方法步驟中之一些或全部係可由(或使用)硬體裝置(例如，微處理器、可規劃電腦或電子電路)執行。在一些實施例中，最重要的方法步驟中之某一者或多者係可由此裝置執行。

本發明之傳輸或編碼信號可儲存於數位儲存媒體上，或可在諸如無線傳輸媒體或諸如網際網路之有線傳輸媒體的傳輸媒體上傳輸。

取決於某些實施要求，可以硬體或以軟體來實施本發明之實施例。可使用儲存有電子可讀控制信號之數位儲存媒體(例如，軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH記憶體)來執行該實施，該等電子可讀控制信號與(或能夠與)一可規劃電腦系統合作，使得執行各別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，該等電子可讀控制信號能夠與一可規劃電腦系統合作，使得執行本文所描述之方法中之一者。

通常，可將本發明之實施例實施為具有程式碼之電腦程式產品，該程式碼係操作性的以當該電腦程式產品在電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。

其他實施例包含用以執行本文所描述之方法中之一者之電腦程式，其儲存於機器可讀載體上。

換言之，本發明之方法之一實施例因此為具有程式碼之電腦程式，該程式碼用以當該電腦程式在電腦上執行時執行本文所描述之方法中之一者。

本發明之方法之另外實施例因此為一資料載體 (或諸如數位儲存媒體之非暫時性儲存媒體，或電腦可讀媒體)，其包含記錄於其上的用以執行本文所描述之方法中之一者之電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。

本發明之方法之另外實施例因此為一資料串流或一連串信號，其表示用以執行本文所描述之方法中之一者之電腦程式。舉例來說，該資料串流或該一連串信號可經組配以經由資料通信連接(例如，經由網際網路)而傳送。

一另外實施例包含一處理構件，例如，電腦或可規劃邏輯器件，其經組配或調適以執行本文所描述之方法中之一者。

一另外實施例包含一電腦，其具有安裝於其上的用以執行本文所描述之方法中之一者之電腦程式。

根據本發明之另外實施例包含經組配以將用以執行本文所描述之方法中之一者之電腦程式傳送(例如，電子地或光學地)至接收器的裝置或系統。舉例來說，該接收器可為電腦、行動器件、記憶體器件或其類似者。舉例來說，該裝置或系統可包含用以將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可使用可規劃邏輯器件(例如，場可規劃閘陣列)以執行本文所描述之方法之功能性中的一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作，以便執行本文所描述之方法中之一者。通常，該等方法係較佳地由任何硬體裝置執行。

上述實施例僅僅說明本發明之原理。應理解，本文所描述之配置及細節的修改及變化對於其他熟習此項技術者將顯而易見。因此，意圖係僅受到即將出現的專利申請專利範圍之範疇限制，而不受到作為本文中之實施例之描述及解釋而呈現的特定細節限制。

參考文獻：

[1] B. Bessette et al., “The Adaptive Multi-rate Wideband Speech Codec (AMR-WB),” IEEE Trans. on Speech and Audio Processing, Vol. 10, No. 8, Nov. 2002.

[2] B. Geiser et al., “Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1,” IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 8, Nov. 2007.

[3] B. Iser, W. Minker, and G. Schmidt, Bandwidth Extension of Speech Signals, Springer Lecture Notes in Electrical Engineering, Vol. 13, New York, 2008.

[4] M. Jelínek and R. Salami, “Wideband Speech Coding Advances in VMR-WB Standard,” IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 4, May 2007.

[5] I. Katsir, I. Cohen, and D. Malah, “Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation,” in Proc. EUSIPCO 2011, Barcelona, Spain, Sep. 2011.

[6] E. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design, Wiley, New York, 2004.

[7] J. Mäkinen et al., “AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services,” in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005.

[8] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132 ^nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.

[9] H. Pulakka and P. Alku, “Bandwidth Extension of Telephone Speech Using a Neural Network and a Filter Bank Implementation for Highband Mel Spectrum,” IEEE Trans. on Audio, Speech, and Language Processing, Vol. 19, No. 7, Sep. 2011.

[10] T. Vaillancourt et al., “ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels,” in Proc. EUSIPCO 2008, Lausanne, Switzerland, Aug. 2008.

[11] L. Miao et al., “G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs,” in Proc. ICASSP 2011, Prague, Czech Republic, May 2011.

[12] Bernd Geiser, Peter Jax, and Peter Vary:: “ROBUST WIDEBAND ENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTH EXTENSION”, Proceedings of International Workshop on Acoustic Echo and Noise Control (IWAENC), 2005

100‧‧‧核心信號

104‧‧‧特徵提取器

108‧‧‧參數產生器

110‧‧‧旁側資訊提取器

112‧‧‧特徵

114‧‧‧選擇旁側資訊

116‧‧‧參數表示

118‧‧‧信號估計器

120‧‧‧頻率增強音訊信號

Claims

一種用以產生一頻率增強音訊信號之解碼器，其包含：一特徵提取器，其用以自一核心信號提取一特徵；一旁側資訊提取器，其用以提取與該核心信號相關聯之一選擇旁側資訊；一參數產生器，其用以產生用以估計未由該核心信號界定的該頻率增強音訊信號之一頻譜範圍的一參數表示，其中該參數產生器經組配以響應於該特徵而提供數個參數表示替代例，且其中該參數產生器經組配以響應於該選擇旁側資訊而選擇該等參數表示替代例中之一者作為該參數表示；一信號估計器，其用以使用該選定參數表示來估計該頻率增強音訊信號；以及一信號分類器，其用以分類該核心信號之一訊框；其中該參數產生器經組配以在一信號訊框經分類為屬於一第一類別之信號時使用一第一統計模型，且在該訊框經分類成一第二不同類別之信號時使用一第二不同統計模型。
如請求項1之解碼器，其進一步包含：一輸入介面，其用以接收包含一編碼核心信號及該選擇旁側資訊之一編碼輸入信號；以及一核心解碼器，其用以對該編碼核心信號解碼以獲得該核心信號。
如請求項1之解碼器，其中該參數產生器經組配以在選擇該等參數表示替代例中之一者時使用該等參數表示替代例之一預定義次序，或該等參數表示替代例之一編碼器傳信次序。
如請求項1之解碼器，其中該參數產生器經組配以提供一包絡表示作為該參數表示，其中該選擇旁側資訊指示複數個不同齒音或摩擦音中之一者，且其中該參數產生器經組配成用以提供由該選擇旁側資訊識別之該包絡表示。
如請求項1之解碼器，其中該信號估計器包含用以對該核心信號內插之一內插器，且其中該特徵提取器經組配以自未經內插之該核心信號提取該特徵。
如請求項1之解碼器，其中該信號估計器包含：一分析濾波器，其用以分析該核心信號或一內插核心信號以獲得一激勵信號；一激勵擴展區塊，其用以產生具有未包括於該核心信號中之該頻譜範圍的一增強激勵信號；以及一合成濾波器，其用以對該擴展激勵信號濾波；其中該分析濾波器或該合成濾波器係由該選定參數表示決定。
如請求項1之解碼器，其中該信號估計器包含一頻譜頻寬擴展處理器，該頻譜頻寬擴展處理器用以使用該核心信號之至少一頻譜帶及該參數表示來產生對應於未包括於該核心信號中之該頻譜範圍的一擴展頻譜帶，其中該參數表示包含用於一頻譜包絡調整、一雜訊底限相加、一反向濾波器以及遺漏載頻調之一相加中至少一者的參數，其中該參數產生器經組配以針對一特徵提供複數個參數表示替代例，每一參數表示替代例具有用於一頻譜包絡調整、一雜訊底限相加、一反向濾波以及遺漏載頻調之相加中至少一者的參數。
如請求項1之解碼器，其進一步包含：一語音活動偵測器或一話語/非話語鑑別器，其中該信號估計器經組配以僅在該語音活動偵測器或該話語/非話語偵測器指示一語音活動或一話語信號時才使用該參數表示來估計該頻率增強信號。
如請求項8之解碼器，其中該信號估計器經組配以在該語音活動偵測器或話語/非話語偵測器指示一非話語信號或不具有一語音活動之一信號時，自一個頻率增強程序切換至一不同頻率增強程序、或者使用自一編碼信號提取之不同參數。
如請求項1之解碼器，其中該統計模型經組配以響應於一特徵而提供複數個替代參數表示，其中每一替代參數表示具有相同於一不同替代參數表示之一機率或與該替代參數表示之該機率相差小於最高機率之10%的一機率。
如請求項1之解碼器，其中當該參數產生器提供複數個參數表示替代例時，該選擇旁側資訊僅包括於該編碼信號之一訊框中，且其中該選擇旁側資訊不包括於該編碼音訊信號之一不同訊框中，其中該參數產生器響應於該特徵而僅提供一單一參數表示替代例。
一種用以產生一編碼信號之編碼器，其包含：一核心編碼器，其用以對一原始信號編碼以獲得相比於一原始信號具有關於較少數目個頻帶之資訊的一編碼音訊信號；一選擇旁側資訊產生器，其用以產生選擇旁側資訊，該選擇旁側資訊指示由一統計模型響應於自該原始信號或自該編碼音訊信號或自該編碼音訊信號之一解碼版本提取之一特徵而提供的一已界定參數表示替代例；以及一輸出介面，其用以輸出該編碼信號，該編碼信號包含該編碼音訊信號及該選擇旁側資訊；一核心解碼器，其用以解碼該編碼音訊信號以獲得一解碼核心信號；其中該選擇旁側資訊產生器包含：一特徵提取器，其用以自該解碼核心信號提取一特徵；一統計模型處理器，其用以產生用以估計未由該解碼核心信號界定的一頻率增強信號之一頻譜範圍的數個參數表示替代例；一信號估計器，其用以估計用於該等參數表示替代例之頻率增強音訊信號；以及一比較器，其用以比較該等頻率增強音訊信號與該原始信號；其中該選擇旁側資訊產生器經組配以設定該選擇旁側資訊，使得該選擇旁側資訊獨特地定義在一最佳化準則下致使與該原始信號最佳地匹配之一頻率增強音訊信號的該參數表示替代例。
如請求項12之編碼器，其中該輸出介面經組配以在由該統計模型提供複數個參數表示替代例時僅將該選擇旁側資訊包括至該編碼信號中，且不將任何選擇旁側資訊包括至用於該編碼音訊信號之一訊框中，其中該統計模型係操作性的以響應於該特徵而僅提供一單一參數表示。
一種用以產生一頻率增強音訊信號之方法，其包含：自一核心信號提取一特徵；提取與該核心信號相關聯之一選擇旁側資訊；產生用以估計未由該核心信號界定的該頻率增強音訊信號之一頻譜範圍的一參數表示，其中響應於該特徵而提供數個參數表示替代例，且其中響應於該選擇旁側資訊而選擇該等參數表示替代例中之一者作為該參數表示；使用該選定參數表示來估計該頻率增強音訊信號；以及分類該核心信號之一訊框；其中該產生之步驟在一信號訊框被分類為屬於一第一類別之信號時使用一第一統計模型，且在該訊框被分類成一第二不同類別之信號時使用一第二不同統計模型。
一種用以產生一編碼信號之方法，其包含：對一原始信號編碼以獲得相比於該原始信號具有關於較少數目個頻帶之資訊的一編碼音訊信號；產生選擇旁側資訊，該選擇旁側資訊指示由一統計模型響應於自該原始信號或自該編碼音訊信號或自該編碼音訊信號之一解碼版本提取之一特徵而提供的一已界定參數表示替代例；以及輸出該編碼信號，該編碼信號包含該編碼音訊信號及該選擇旁側資訊；核心解碼該編碼音訊信號以獲得一解碼核心信號；其中該產生該選擇旁側資訊之步驟包含：自該解碼核心信號提取一特徵；產生用以估計未由該解碼核心信號界定的一頻率增強信號之一頻譜範圍的數個參數表示替代例；估計用於該等參數表示替代例之頻率增強音訊信號；以及比較該等頻率增強音訊信號與該原始信號；其中該產生該選擇旁側資訊之步驟設定該選擇旁側資訊，使得該選擇旁側資訊獨特地定義在一最佳化準則下致使與該原始信號最佳地匹配之一頻率增強音訊信號的該參數表示替代例。
一種具有電腦程式儲存於其上之儲存媒體，該電腦程式用以在一電腦或一處理器上執行時執行如請求項14之方法或如請求項15之方法。