TWI515721B

TWI515721B - 用於音頻信號帶寬擴展的設備和方法

Info

Publication number: TWI515721B
Application number: TW098102983A
Authority: TW
Inventors: Frederik Nagel; Sascha Disch; Max Neuendorf
Original assignee: Fraunhofer Ges Forschung
Priority date: 2008-01-31
Filing date: 2009-01-23
Publication date: 2016-01-01
Also published as: ES2649012T3; DE102008015702B4; EP2238591A1; ES2925696T3; WO2009095169A1; PT3264414T; TW200939211A; RU2455710C2; JP2011511311A; EP3264414B1; EP3264414A1; KR20110007083A; AU2009210303A1; BRPI0905795B1; KR101164351B1; DE102008015702A1; DK3264414T3; EP2238591B1; CN101933087A; US8996362B2

Description

用於音頻信號帶寬擴展的設備和方法

本發明涉及音頻信號處理，具體地，涉及在可用資料速率相當小的情況下的音頻信號處理。

為了音頻信號的有效儲存和傳送，用於資料減少的音頻信號的聽覺適配編碼已經在許多領域得到接受。編碼演算法尤其以“MP3”或“MP4”而為人所知。尤其在實現最低位元速率時，為此而使用的編碼導致了音頻品質的下降，這種下降通常主要是由要傳送的音頻信號帶寬的編碼器側限制而導致的。

從WO 98 57436已知，在這種情況下，在編碼器側對音頻信號進行頻帶限制，並通過高品質音頻編碼器來僅對音頻信號的較低頻帶進行編碼。然而，僅非常粗略地使用用於重現較高頻帶的頻譜包絡的參數集合來表徵較高頻帶。然後，在解碼器側對較高頻帶進行合成。出於這種原因，提出了一種調和置換(harmonic transposition)，其中將解碼的音頻信號的較低頻帶提供給濾波器組。較低頻帶的濾波器組通道與較高頻帶的濾波器組通道連接，或“拼接(patch)”，並對每個拼接的帶通信號進行包絡調整。這裏，屬於特定解析濾波器組的合成濾波器組接收較低頻帶中的音頻信號的帶通信號和被調和拼接在較高頻帶中的較低頻帶的包絡調整後的帶通信號。合成濾波器組的輸出信號是關於其帶寬擴展的音頻信號，將該音頻信號以非常低的資料速率從編碼器側發送至解碼器側。特別地，在濾波器組域中的濾波器組計算和拼接的計算代價可能較高。

取而代之地，用於頻帶受限音頻信號的帶寬擴展的複雜度降低的方法使用一種拷貝函數，該拷貝函數將低頻信號部分(LF)拷貝至高頻範圍(HF)，以近似得到由於頻帶限制而丟失的資訊。在以下文獻中描述了這樣的方法：M. Dietz,L. Liljeryd,K. Kjrling and 0. Kunz,"Spectral Band Replication,a novel approach in audio coding," in 112th AES Convention,Munich,May 2002；S. Meltzer,R. Bhm and F. Henn,"SBR enhanced audio codecs for digital broadcasting such as"Digital Radio Mondiale"(DRM),"112th AES Convention,Munich,May 2002;T. ziegler,A. Ehret,P. Ekstrand and M. Lutzky,"Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algorithm,"in 112th AES Convention,Munich,May 2002；國際標準ISO/IEC 14496-3:2001/FPDAM 1,"Bandwidth Extension,"ISO/IEC,2002,or"Speech bandwidth extension method and apparatus",Vasu Iyengar et al.美國專利Nr. 5,455,888。

在這些方法中，不執行調和置換，而是將較低頻帶的連續的帶通信號引入較高頻帶的連續的濾波器組通道。由此，實現了音頻信號的較高頻帶的粗略近似。然後，在另一步驟中，通過使用從原始信號中得到的控制資訊來進行後處理，使該信號的粗略近似近似於原始信號。這裏，例如，如也在MPEG-4標準中描述的，縮放因數用於：適配頻譜包絡、反濾波和添加雜訊毯(noise carpet)以適配音調(tonality)，以及使用正弦信號部分來進行補充。

除此之外，也存在其他方法，如E. Larsen,R.M. Aarts,and M. Danessis,“Efficient high-frequency bandwidth extension of music and speech”,In AES 112^th Convention,Munich,Germany,May 2002中描述的所謂“盲帶寬擴展”，其中不使用與原始HF範圍相關的資訊。此外，也存在所謂的“人工帶寬擴展”方法，在K. Kyhk,A Robust Wideband Enhancement for Narrowband Speech Signal;Research Report,Helsinki University of Technology,Laboratory of Acoustics and Audio signal Processing,2001中描述了該方法。

在J. Makinen et al.:AMR-WB+:a new audio coding standard for 3^rd generation mobile audio services Broadcasts,IEEE,ICASSP’05中，描述了一種帶寬擴展方法，其中通過鏡像(例如通過上採樣)來替代根據SBR技術使用連續帶通信號的上拷貝(up-copying)來進行的帶寬擴展的拷貝操作。

在以下文獻中描述了用於帶寬擴展的其他技術。R.M. Aarts,E. Larsen,and O. Ouweltjes,“A unified approach to low-and high frequency bandwidth extension”,AES 115^th Convention,New York,USA,October 2003；E. Larsen and R.M. Aarts,“Audio Bandwidth Extension-Application to psychoacoustics,Signal Processing and Loudspeaker Design”,John Wiley ＆ Sons,Ltd.,2004；E. Larsen,R.M. Aarts,and M. Danessis,“Efficient high-frequency bandwidth extension of music and speech”,AES 112^th Convention,Munich,May 2002；J. Makhoul,“Spectral Analysis of Speech by Linear Prediction”,IEEE Transactions on Audio and Electroacoustics,AU-21(3),June 1973；美國專利申請08/951,029；美國專利No. 6,895,375。

調和帶寬擴展的已知方法表現出較高複雜度。另一方面，複雜度降低的帶寬擴展方法表現出品質損失。尤其在低位元率並結合LF範圍的低帶寬的情況下，可能出現如粗糙和被感知為不愉悅的音色之類的偽像。其原因在於，近似的HF部分是基於拷貝操作，該操作未注意到音調信號部分互相之間的調和關係。這適用於LF和HF之間的調和關係，也適用於HF部分自身之內的調和關係。例如，使用SBR，在LF範圍和產生的HF範圍之間的邊界上，例如，如第四圖A中所示，由於從LF範圍拷貝至HF範圍的音調部分現在可能在整體信號中遇到在頻譜上緊密相鄰的LF範圍的音調部分，因此時而會出現粗糙的聲音印象。因此，在第四圖A中，示意了具有在401、402、403和404處的峰值的原始信號，而示意的測試信號具有在405、406、407和408處的峰值。通過將音調部分從LF範圍拷貝至HF範圍(其中，在第四圖A中，邊界在4250Hz處)，測試信號中的兩個左側峰值的距離小於調和光柵的基頻，這導致了粗糙感。

如在Zwicker,E. and H. Fastl(1999),Psychoacoustics:Facts and models. Berlin-Springerverlag中所述，由於音調補償的頻率組的寬度隨著中心頻率的增大而增大，這裏，將位於不同頻率組中的LF範圍內的正弦部分拷貝至HF範圍，可能使其位於相同的頻率組中，這也導致了粗糙的聽覺印象，從第四圖B中可以看到這一點。這裏，具體示出了，將LF範圍拷貝至HF範圍導致測試信號中具有比原始信號更密的音調結構。如在410處具體示出的，原始信號相對均勻地分佈在較高頻率範圍中的頻譜上。相反，在該較高範圍中，測試信號411相對不均勻地分別在頻譜上，因此顯然比原始信號410具有更多音調。

本發明的目的是實現具有高品質的帶寬擴展，同時實現具有較低複雜度的信號處理，然而，其可以很小的延遲和很小的代價來實現，因此，也可以在處理器速度和所需記憶體方面具有降低的硬體要求的處理器來實現。

這個目的是通過根據申請專利範圍第1項所述的用於帶寬擴展的設備或根據申請專利範圍第13項所述的用於帶寬擴展的方法、或根據申請專利範圍第14項所述的電腦程式來實現的。

本發明的用於帶寬擴展的概念基於：時間信號擴展，用於使用大於1的擴展因數產生所述音頻信號的、作為在時間上擴展的時間信號的版本；隨後對該時間信號進行抽取以獲得置換的信號；然後，例如使用簡單的帶通濾波器對該置換的信號進行濾波，以提取高頻信號部分(可能僅在其幅度上仍分別被畸變或改變)，從而獲得原始高頻部分的良好近似。可選地，可以在執行信號擴展之前進行帶通濾波，使得在擴展後的擴展信號中僅存在期望的頻率範圍，從而可以省略擴展之後的帶通濾波。

一方面，使用調和帶寬擴展，基於使用用於對時間信號進行擴展的信號擴展器來進行的頻譜擴展和調和延拓，可以防止由拷貝或鏡像操作或兩者而導致的問題。另一方面，使用簡單的處理器，可以比完整的解析/合成濾波器組更簡單地執行時間擴展和隨後的抽取，例如，完整的解析/合成濾波器組使用調和置換，其中必須做出額外的判決：即應當如何進行濾波器組域中的拼接。

優選地，對於信號擴展，使用相位聲碼器，其實現需要很小的代價。為了獲得具有大於2的因數的帶寬擴展，也可以並行使用若干相位聲碼器，這樣做是有利的，尤其對於在即時應用中必須較低的帶寬擴展的延遲。可選地，可以使用用於信號擴展的其他方法，例如PSOLA方法(音高同步疊加)。

在本發明的優選實施例中，首先，在相位聲碼器的幫助下，在具有最大頻率LF_max 的時間方向上擴展LF音頻信號，即擴展至信號的常規持續時間的整數倍。基於此，在下游抽取器中，使用時間擴展因數來進行信號的抽取，其總的效果導致了頻譜的擴展。這與音頻信號的置換相對應。最後，將所產生的信號帶通濾波至(擴展因數-1)．LF_max至擴展因數．LF_max的範圍。可選地，可以對通過擴展和抽取產生的各個高頻信號進行帶通濾波，使其最終加性地覆蓋在整個高頻範圍上(即從LF_max至k*LF_max)。對於仍期望諧波的更高頻譜密度的情況，這是明智的。

在本發明的優選實施例中，對若干不同的擴展因數並行地執行調和帶寬擴展的方法。作為並行處理的一種替代選擇，也可以是使用單個相位聲碼器，該相位聲碼器串列操作，其中對中間結果進行緩存。因此，可以實現任何帶寬擴展的截止頻率。可選地，也可以在頻率方向上直接執行信號的擴展，即具體地，通過與相位聲碼器的功能原理相對應的對偶操作來執行擴展。

有利地，在本發明的實施例中，不需要在調和性或基頻方面對信號進行解析。

以下，參照附圖，更詳細地解釋本發明的優選實施例。

第一圖分別示出了用於音頻信號的帶寬擴展的設備或方法的示意圖。僅以示例方式將第一圖描述為設備，但是第一圖同時也可以被認為是用於帶寬擴展的方法的流程圖。這裏，在輸入100，將音頻信號饋送入該設備。將音頻信號提供給信號擴展器102，信號擴展器102被實現為用於使用大於1的擴展因數產生所述音頻信號的、作為在時間上擴展的時間信號的版本。在第一圖所示的實施例中，經由擴展因數輸入104來提供該擴展因數。在信號擴展器102的輸出103處出現的擴展的音頻時間信號被提供給抽取器105，抽取器105被實現為使用與擴展因數104匹配的抽取因數來對時間擴展的音頻時間信號103進行抽取。在第一圖中使用擴展因數輸入104以示意圖方式示出了這一點，使用虛線來繪出擴展因數輸入104，並將其引至抽取器105。然而，如果將抽取描述為執行以2為因數的抽取，即每個第二採樣值被去除，那麼在該圖示中，抽取因數與擴展因數相同。也可以根據實現方式來使用擴展因數和抽取因數之間的可選比值，例如整數比值或有理數比值。然而，當擴展因數等於抽取因數時，實現最大調和帶寬擴展。

在本發明的優選實施例中，例如，抽取器105被實現為去除每個第二採樣(擴展因數等於2)，使得產生抽取的音頻信號具有與原始音頻信號100相同的時間長度。例如，也可以使用例如形成加權的平均值或分別考慮到過去或未來的趨勢的其他抽取演算法，然而，可以以非常小的代價，通過採樣的去除來實現簡單的抽取。將抽取器105產生的抽取的時間信號106提供給濾波器107，其中濾波器107被實現為從抽取的音頻信號106中提取帶通信號，該帶通信號包含該設備的輸入處的音頻信號100中未包含的頻率範圍。在該實現中，濾波器107可以被實現為數位帶通濾波器，例如FIR或IIR濾波器，或也可以被實現為模擬帶通濾波器，但是數位實現是優選的。此外，濾波器107被實現為使其提取操作102和105產生的較高頻譜範圍，然而，其中，無論如何，對音頻信號100所涵蓋的底部頻譜範圍進行盡可能多的抑制。然而，在該實現中，濾波器107也可以被實現為使其也提取具有原始信號100中包含的帶通信號的頻率的信號部分，其中，所提取的帶通信號包含原始音頻信號100中未包含的至少一個頻帶。

將濾波器107輸出的帶通信號108提供給畸變器109，畸變器109被實現為對帶通信號進行畸變，使得該帶通信號包括預定包絡。可以用於進行畸變的包絡資訊可以從外部輸入，或甚至可以來自編碼器或也可以從內部產生，例如通過音頻信號100的盲外插來產生，或基於解碼器側儲存的、使用音頻信號100的包絡作為索引的表來產生。最後，將畸變器109輸出的畸變的帶通信號110提供給組合器111，組合器111被實現為將畸變的帶通信號110與根據實現方式也被畸變的原始音頻信號100組合(在第一圖中未示出延遲級)，以在輸出112處產生帶寬擴展的音頻信號。

在可選實現方式中，畸變器109和組合器111的順序與第一圖所示的圖示相反。這裏，將濾波器輸出信號，即帶通信號108直接與音頻信號100進行組合，僅在進行組合之後才由畸變器109對從組合器111輸出的組合信號的較高頻帶進行畸變。在這種實現方式中，畸變器操作為用於對組合進行進行畸變的畸變器，使得組合信號包括預定包絡。因此，在該實施例中，組合器被實現為使其將帶通信號108與音頻信號100進行組合，以獲得帶寬擴展的音頻信號。在該實施例中，僅在組合之後才進行畸變，優選地，將畸變器109實現為使得其分別不影響音頻信號100或音頻信號100提供的組合信號的帶寬，這是由於使用高品質編碼器對音頻信號的較低頻帶進行編碼，而且該較低頻帶在解碼器側位於較高頻帶的合成中，可以說，對所有內容的度量不應受到帶寬擴展的干擾。

在示意本發明的詳細實施例之前，參照第七圖A和第七圖B來示意一種帶寬擴展的情形，其中可以有利的實現本發明。在輸入700處，將音頻信號饋送入低通/高通組合。該低通/高通組合一方面包括低通(LP)，用於產生在第七圖A中的703處所示的音頻信號700的低通濾波版本。使用音頻編碼器704對該低通濾波的音頻信號進行編碼。例如，該音頻編碼器是MP3編碼器(MPEG1層3)或AAC編碼器(也稱為MP4編碼器，在MPEG4標準中對其進行了描述)。在編碼器704中，可以使用提供頻帶受限的音頻信號703的透明(或有利地，在心理聲學上透明)表示的可選的音頻編碼器，以分別產生完整編碼的、或心理聲學編碼的，以及優選地，在心理聲學上透明編碼的音頻信號705。濾波器702的高通部分(標記為“HP”)在輸出706處輸出音頻信號的較高頻帶。將音頻信號的高通部分，即較高頻帶或HF頻帶(也標記為HF部分)提供給參數計算器707，參數計算器707被實現為計算不同參數。例如，這些參數是以相對粗糙的解析度來表示的較高頻帶706的頻譜包絡，例如，分別使用每個心理聲學頻率組或Bark尺度上的每個Bark頻帶的縮放因數來進行表示。參數計算器707可以計算的另一參數是較高頻帶中的雜訊毯，該雜訊毯的每頻帶能量可以優選地與該頻帶中的包絡的能量相關。參數計算器707可以計算的其他參數包括：較高頻帶中的每個部分頻帶的音調度量，該音調度量指示了頻帶中的頻譜能量是如何分佈的，即頻帶中的頻譜能量是否相對均勻地分佈，則其中在該頻帶中存在非音調信號，或該頻帶中的能量是否相對強地集中在頻帶中的特定位置，則其中對於該頻帶更可能存在音調信號。其他參數在於：對在較高頻帶中在高度和頻率上相對強地凸起的峰值進行顯式編碼，作為帶寬擴展的概念，在沒有這樣的對較高頻帶中的顯著的正弦部分進行顯式編碼的情況下的重構將只能非常初步地將其恢復，或完全不能恢復。

在任何情況下，參數計算器707被實現為僅產生用於較高頻帶的參數708，可以對該參數708進行與編碼器704中執行的用於量化的頻譜值的步驟類似的熵減少步驟，例如差分編碼、預測或霍夫曼編碼等。然後，將參數表示708和音頻信號705提供給下游的格式器709，格式器709被實現為提供輸出側資料流程710，典型地，該資料流程是根據特定格式(如在MEG4標準中規範化的格式)的資料流程。

以下參照第七圖B來示意尤其適於本發明的解碼器側。資料流程710進入資料流程解釋器711，資料流程解釋器711被實現為將參數部分708與音頻信號部分705分離。使用參數解碼器712來對參數部分708進行解碼，以獲得解碼的參數713。與此並行地，使用音頻解碼器714來對音頻信號部分705進行解碼，以獲得在第一圖中的100處所示的音頻信號。

根據該實現方式，可以經由第一輸出715輸出音頻信號100。然後，可以在輸出715處獲得具有小帶寬從而也具有低品質的音頻信號。然而，為了提高品質，執行本發明的帶寬擴展720(例如，如第一圖所示地來執行)，以在輸出側獲得音頻信號112，音頻信號112分別具有擴展的或高的帶寬以及高的品質。

以下參照第二圖A，示意第一圖中的帶寬擴展實現方式的優選實現方式，優選地，其可以用於第七圖B中的模組712中。第二圖A首先包括標記為“音頻信號和參數”的模組，該模組可以與第七圖B中的模組711、712和714相對應，並使用200來標記該模組。模組200在輸出側提供輸出信號100以及解碼的參數713，該參數可以用於不同的畸變，例如用於音調校正109a和包絡調整109b。將音調校正109a和包絡調整109b分別產生或校正的信號提供給組合器111，以在輸出側獲得具有擴展帶寬的音頻信號112。

優選地，使用相位聲碼器202a來實現第一圖中的信號擴展器102。優選地，使用簡單的採樣率轉換器205a來實現第一圖中的抽取器105。優選地，使用簡單的帶通濾波器107a來實現用於帶通信號的提取的濾波器107。特別地，相位聲碼器202a和採樣率抽取器205a可以以擴展因數=2來操作。

優選地，提供了由相位聲碼器202b、抽取器205b和帶通濾波器207b組成的另一種“系列”，以在濾波器207b的輸出處提取另一帶通信號，該帶通信號包括帶通濾波器207a的上截止頻率與音頻信號100的最大頻率的3倍之間的頻率範圍。

此外，提供了k相位聲碼器202c，用於實現因數為k的音頻信號擴展，其中k優選地是大於1的整數。抽取器205連接至相位聲碼器202c的下游，以k為因數來進行抽取。最後，將抽取的信號提供給帶通濾波器207c，帶通濾波器207c被實現為其下截止頻率等於相鄰支路的上截止頻率，其上截止頻率與音頻信號100的最大頻率的k倍相對應。組合器209對所有帶通信號進行組合，其中，例如，組合器209可以被實現為加法器。可選地，組合器209也可以被實現為加權加法器，根據該實現方式，獨立於元件109a、109b進行的下游畸變，該加權加法器對較高頻帶的衰減比對較低頻帶的衰減更強。此外，第二圖A所示的系統包括延遲級211，延遲級211確保在組合器111中進行同步的組合，該組合例如可以是逐採樣相加。

第三圖示出了在第一圖或第二圖A所示的處理中可能出現的不同頻譜的示意圖。第三圖的部分圖像(1)示出了例如在第一圖中的100處或在第七圖A中的703處出現的頻帶受限的音頻信號。優選地，使用信號擴展器102將該信號擴展至信號的原始持續時間的整數倍，隨後以整數因數對其進行抽取，這導致了如第三圖中的部分圖像(2)所示的總的頻譜擴展。在第三圖中示意了由包括通帶300的帶通濾波器所提取的HF部分。在第三部分圖像(3)中，第三圖示出了變型，其中在帶通信號的畸變之前，已經將該帶通信號與原始音頻信號100進行組合。因此，產生了具有未畸變的帶通信號的組合頻譜，其中，如部分圖像(4)所示，然後，進行較高頻帶的畸變，但是，如果可能，對較低頻帶不做修改，以獲得具有擴展帶寬的音頻信號112。

部分圖像(1)中的LF信號具有最大頻率LF_max。相位聲碼器202a執行音頻信號的置換，使得置換後的音頻信號的最大頻率為2LF_max。現在，部分圖像(2)中的所產生的信號被帶通濾波至LF_max至2LF_max的範圍。一般而言，當使用k(k>1)來表示擴展因數時，帶通濾波器包括(k-1)．LF_max至k．LF_max-的通帶。對不同的擴展因數重複第三圖所示的過程，直到實現期望的最高頻率k．LF_max--，其中k=最大擴展因數k_max。

以下，參照第五圖和第六圖來示意根據本發明的相位聲碼器202a、202b、202c的優選實現方式。

第五圖A示出了相位聲碼器的濾波器組實現方式，其中，在輸入500處饋送入音頻信號，並在輸出510處獲得音頻信號。具體地，第五圖A所示的示意性濾波器組的每個通道包括帶通濾波器501和下游振盪器502。組合器(例如被實現為加法器並在503處示出)將來自每個通道的所有振盪器的輸出信號進行組合，以獲得輸出信號。每個濾波器501被實現為使得其一方面提供幅度信號，另一方面提供頻率信號。該幅度信號和頻率信號是示出濾波器501中的幅度隨時間進展的時間信號，而頻率信號則表示由濾波器510濾波的信號的頻率進展。

第五圖B中示出了濾波器501的示意設置。可以如第五圖B中所示來對第五圖A中的每個濾波器501進行設置，然而，其中，只有提供給兩個輸入混頻器551和加法器552的頻率f_i在每個通道中互不相同。低通553對混頻器輸出信號均進行低通濾波，其中，低通信號與其由本地振盪器頻率(LO頻率)所產生時不同，其相位相差90°。的上方的低通濾波器553提供了正交信號554，而下方的低通濾波器553提供了同相信號555。將這兩個信號，即I和Q提供給座標變換器556，座標變換器556從矩形表示產生幅度相位表示。在輸出557處分別輸出第五圖A中的基於時間的幅度信號或相位信號。將相位信號提供給相位展開器(phase unwrapper)558。在元件558的輸出處，不再存在始終在0和360°之間的相位值，而存在線性增大的相位值。將該“展開”的相位值提供給相位/頻率轉換器 559，相位/頻率轉換器559例如被實現為簡單的相位差形成器，用於從當前時間點的相位減去前一時間點的相位，以獲得當前時間點的頻率值。將該頻率值與濾波器通道i的常數頻率值f_i相加，以在輸出560處獲得時變的頻率值。輸出560處的頻率值具有直接分量=f_i和交變分量=頻率偏差，該頻率偏差是濾波器通道中的信號的當前頻率與平均頻率f_i的偏差。

因此，如第五圖A和第五圖B所示，相位聲碼器實現了頻譜資訊與時間資訊的分離。頻譜資訊在專用通道中，或在為每個通道提供頻率的直接部分的頻率f_i中，而時間資訊分別被包含在頻率偏差或基於時間的幅度中。

第五圖C示出了根據本發明的被執行用於帶寬增大的操作，具體地，在相位聲碼器202a中，更具體地，在第五圖A中以虛線繪製的所示電路的位置處執行該操作。

為了進行時間縮放，例如，可以對每個通道中的幅度信號A(t)或每個信號中的信號頻率f(t)分別進行抽取或插值。為了進行對本發明有用的置換，執行插值，即信號A(t)和f(t)的時間延伸或擴展，以獲得擴展的信號A’(t)和f’(t)，其中，如第一圖所示，由擴展因數104來控制該插值。通過相位變化(即在加法器552進行與常數頻率的相加之前的值)的插值，未改變第五圖A中的每個單獨的振盪器502的頻率。然而，總體音頻信號的時間變化放緩(即通過因數2實現)。其結果是具有原始音高(即原始基波及其諧波)的時間擴展的音調。

通過執行第五圖C所示的信號處理，其中在第五圖中的每個濾波器頻帶通道中執行這種處理，然後在第一圖的抽取器105或第五圖A的抽取器205a中分別對產生的時間信號進行抽取，將音頻信號收縮至其原始的持續時間，同時將所有頻率增大為兩倍。這導致了因數為2的音高置換，然而，其中，所獲得的音頻信號具有與原始音頻信號相同的長度，即相同的採樣數目。

作為第五圖A所示的濾波器組實現方式的一種替代選擇，也可以使用相位聲碼器的變換實現方式。這裏，將音頻信號100作為時間採樣序列饋送入FFT處理器，或者更一般地，饋送入短時傅立葉變換處理器600。在第六圖中示意性地實現了FFT處理器600，用於執行音頻信號的時間加窗，以便接著通過FFT來計算幅度譜和相位譜，其中，這種計算是對與音頻信號的塊相關的連續頻譜來執行的，這些連續頻譜的交疊較強。

在一種極端情況下，對於每個新的音頻信號採樣，可以計算新的頻譜，其中，例如，也可以僅對每二十分之一的新採樣來計算新的頻譜。優選地，由控制器602給出兩個頻譜之間的採樣距離a。該控制器602還被實現為向IFFT處理器604進行饋送，而該IFFT處理器604被實現為在交疊操作中操作。具體地，IFFT處理器604被實現為使得其基於幅度譜和相位譜，對每個頻譜執行一次IFFT來執行反短時傅立葉變換，以便接著執行疊加操作，通過該疊加操作來產生時間範圍。該疊加操作消除了解析窗的效果。

通過使IFFT處理器604處理的兩個頻譜之間的距離b大於在FFT頻譜的產生時這兩個頻譜之間的距離a，實現了時間信號的擴展。其基本思想是通過簡單地使逆FFT的間隔大於解析FFT的間隔來擴展音頻信號。由此，在合成的音頻信號中出現的頻譜變化比原始音頻信號中更慢。

然而，在沒有模組606中的相位重新縮放的情況下，這將導致頻率偽像。例如，當考慮單個頻率箱(對其實現了相差45°的連續相位值)時，這意味著在該濾波器組內的信號在相位上以1/8圓周的速率增大，即每個時間間隔增大45°，其中，這裏的時間間隔是連續FFT之間的時間間隔。現在，如果逆FFT要互相間隔更遠，則這意味著在更長的時間間隔上出現45°的相位增大。這意味著，無意中減小了該信號部分的頻率。為了消除該偽像頻率減小，使用與在時間上對音頻信號進行擴展所使用的完全相同的因數來對相位進行重新縮放。因此，以因數b/a來增大每個FFT頻譜值的相位，以消除無意的頻率減小。

儘管在第五圖C所示的實施例中，對第五圖A中的濾波器組實現方式中的一個信號振盪器實現了通過幅度/頻率控制信號的插值來進行的擴展，但是，在第六圖中，通過使兩個IFFT頻譜之間的距離大於兩個FFT頻譜之間的距離，即b大於a來實現擴展，然而，其中，為了防止偽像，根據b/a來執行相位的重新縮放。

關於相位聲碼器的詳細描述，參照以下文獻： “The phase Vocoder：A tutorial",Mark Dolson,Computer Music Journal,vol.10,no.4,pp.14--27,1986；或"New phase Vocoder techniques for pitch-shifting,harmonizing and other exotic effects",L.Laroche und M.Dolson,Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics,New Paltz,New York,October 17-20,1999,pages 91 to 94；"New approached to transient processing interphase vocoder",A.Röbel,Proceeding of the 6th international conference on digital audio effects(DAFx-03),London,UK,September 8-11,2003,pages DAFx-1 to DAFx-6；"Phase-locked Vocoder",Meller Puckette,Proceedings 1995,IEEE ASSP,Conference on applications of signal processing to audio and acoustics；或美國專利申請號6,549,884。

第二圖B示出了第二圖A所示的系統的改進，其中使用了瞬變檢測器250，瞬變檢測器250被實現為確定音頻信號的當前時間操作是否包含瞬變部分。瞬變部分在於以下事實：音頻信號總的變化很大，即例如，音頻信號的能量從一個時間部分至下一時間部分變化(即增大或減小)的程度大於50%。然而，該50%的臨界值僅是示例，該臨界值也可以是更小或更大的值。可選地，對於瞬變檢測，也可以考慮能量分佈的改變，例如從話音至噝噝聲的轉換。

如果確定了音頻信號中的瞬變部分，則如260處所示，不進行調和置換，而對於瞬變時間範圍，執行切換至非調和拷貝操作或非調和鏡像或其他一些帶寬擴展演算法。然後，如果再次檢測到音頻信號不再是瞬變，則如第一圖中的元件102、105所示，再次執行調和置換。在第二圖B的270處示出了這一點。

將模組270和260的輸出信號提供給組合器280，由於音頻信號的時間部分可能是瞬變的或非瞬變的，因此模組270和260的輸出信號的到達在時間上具有偏移，組合器280被實現為提供時間上的帶通信號，例如，可以將該信號提供給第二圖A中的模組109a中的音調校正。可選地，例如，也可以在加法器111之後執行模組280的組合。然而，這可能意味著，對於音頻信號的整個變換塊假定了瞬變特性，或者，如果濾波器組實現方式也基於塊來操作，則對整個這樣的塊，分別執行對於瞬變或非瞬變的判決。

由於如第二圖A中所示並在第五圖和第六圖中更詳細解釋的相位聲碼器202a、202b、202c在瞬變信號部分的處理中產生比非瞬變信號部分的處理中所產生的更多的偽像，因此，如第二圖B中的260處所示，執行向非調和拷貝操作或鏡像的切換。可選地，例如在以上引用的Laroche的專業出版物中或在美國專利號6,549,884中所描述的，也可執行將相位重新設置為瞬變。

如在模組109a、109b中已經示出的，在產生頻譜的HF部分之後，執行頻譜形成和向雜訊的原始度量的調整。例如，在縮放因數、dB(A)加權縮放因數或線性預測的幫助下，可以進行頻譜形成，其中，線性預測的優點在於，不需要時間/頻率轉換和後續的頻率/時間轉換。

至此，本發明的優點在於，通過使用相位聲碼器，進一步擴展了具有增大的頻率的頻譜，而且，該頻譜通過整數擴展而始終正確地調和銜接。因此，排除了在LF範圍的截止頻率處的粗糙感的產生，並防止了由頻譜的HF部分的過度密集的佔用而導致的干擾。此外，可以使用有效的相位聲碼器實現方式，而且可以在不需要濾波器組拼接操作的情況下而實現。

可選地，也可以使用其他信號擴展方法，例如PSOLA方法(音高同步疊加)。音高同步疊加，簡稱為PSOLA，是一種合成方法，其中話音信號的記錄位於資料庫中。只要它們是週期信號，就向其提供關於基頻(音高)的資訊，並標記出每個週期的起始處。在合成中，使用特定環境，通過窗函數來截斷這些週期，並在合適的位置將其添加至要合成的信號：根據期望的基頻是高於還是低於資料庫條目的基頻，相應地，比在原始信號中更密集或更不密集的方式對其進行組合。為了調整可聽信號的持續時間，可以省略週期，或以雙倍方式輸出週期。這種方法也稱為TD-PSOLA，其中TD代表時域，並強調該方法在時域中操作。另一種發展是多頻帶重新合成疊加方法，簡稱為MBROLA。這裏，通過預處理使資料庫中的片段具有均勻的基頻，並對諧波的相位位置進行規範化。由此，在從一個片段至下一片段的轉變的合成中，產生較少的感知干擾，而且所實現的話音品質更高。

在另一種可選方式中，在擴展之前，已經對音頻信號進行了帶通濾波，使得擴展和抽取之後的信號已經包含期望的部分，可以省略隨後的帶通濾波。在這種情況下，帶通濾波器被設置為使得在帶通濾波器的輸出信號中仍然包括音頻信號中在帶寬擴展之後可能已被濾除的部分。因此，帶通濾波器包含在擴展和抽取之後的音頻信號106中不包含的頻率範圍。具有該頻率範圍的信號是形成合成的高頻信號的期望信號。在本實施例中，畸變器109不對帶通信號進行畸變，而對從帶通濾波後的音頻信號導出的擴展和抽取後的信號進行畸變。

還要注意，在原始信號的頻率範圍中，擴展信號也可能是有幫助的，例如通過將原始信號與擴展信號混合，因此，不需要“嚴格”的通帶。然後，擴展信號在其與原始信號在頻率上交疊的頻帶中，可以很好地與原始信號混合，以修正原始信號在該交疊範圍中的特性。

還要注意，畸變109和濾波107的功能可以在單個濾波器模組中實現，或可以在兩個級聯的分離的濾波器中實現。由於畸變是根據信號來進行的，因此，該濾波器模組的幅度特性將是可變的。然而，其頻率特性與信號無關。

根據第一圖所示的實現方式，可以首先對整體音頻信號進行擴展、抽取，然後進行濾波，其中，濾波與元件107、109的操作相對應。因此，在濾波之後或在濾波的同時執行畸變，其中，出於這種目的，採取數位濾波器形式的組合的濾波器/畸變器模組是合適的。可選地，這裏，當使用兩個不同的濾波器元件時，可以在(帶通)濾波(107)之前進行畸變。

再一次，可選地，可以在擴展之前進行帶通濾波，使得在抽取之後僅進行畸變(109)。為了實現這種功能，這裏，兩個不同的元件是優選的。

再一次，可選地，在上述所有變型中，也可以在合成信號與原始音頻信號的組合之後進行畸變，例如，可以使用在原始濾波器的頻率範圍中對要濾波的信號沒有作用或僅有非常小作用的濾波器，然而，該濾波器在擴展的頻率範圍中產生期望的包絡。在這種情況下，優選地，仍使用兩個不同元件用於提取和畸變。

本發明的概念適於全帶寬不可用的所有音頻應用。在例如通過數位無線電、網際網路流以及在音頻通信應用中對音頻內容進行傳播時，可使用本發明的概念。

根據環境，本發明的方法可以以硬體或軟體形式被實現用於分析資訊信號。該實現可以在數位儲存介質上執行，尤其是其上儲存有電子可讀控制信號的軟碟或CD，所述控制信號可以與可編程電腦系統協作，以執行本方法。一般地，因此，本發明在於具有程式碼的電腦程式產品，所述程式碼儲存在機器可讀載體上，當電腦程式產品在電腦上執行時，所述程式碼執行本方法。換言之，因此，本發明可以被實現為具有程式碼的電腦程式，當電腦程式在電腦上執行時，所述程式碼執行本方法。

100．．．音頻信號

102．．．信號擴展器

103．．．音頻時間信號

104．．．擴展因數

105．．．抽取器

106．．．時間信號

107．．．濾波器

108．．．帶通信號

109．．．畸變器

109a．．．音調校正

109b．．．包絡調整

110．．．帶通信號

111．．．組合器

112．．．音頻信號

200．．．音頻信號和參數

202a~202c．．．相位聲碼器

205a~205c．．．抽取器

207a~207c．．．帶通濾波器

209．．．組合器

211．．．延遲級

250．．．瞬變檢測器

260和270．．．模組

280．．．組合器

500．．．輸入

501．．．帶通濾波器

502．．．下游振盪器

503．．．加法器

510．．．濾波器

551．．．混頻器

552．．．加法器

553．．．低通濾波器

554．．．正交信號

555．．．同相信號

556．．．座標變換器

557．．．輸出

558．．．相位展開器

559．．．相位/頻率轉換器

560．．．輸出

600．．．FFT處理器

602．．．控制器

604．．．IFFT處理器

606．．．相位重新縮放器

700．．．音頻信號

702．．．濾波器

703．．．音頻信號

704．．．音頻編碼器

705．．．音頻信號

706．．．較高頻帶

707．．．參數計算器

708．．．參數

709．．．格式器

710．．．資料流程

711．．．資料流程解釋器

712．．．參數解碼器

713．．．參數

714．．．音頻解碼器

715．．．輸出

720．．．帶寬擴展

第一圖示出了本發明的用於音頻信號的帶寬擴展的概念的框圖；

第二圖A示出了根據本發明的一方面的用於音頻信號的帶寬擴展的設備的框圖；

第二圖B示出了具有瞬變檢測器的第二圖A的概念的改進；

第三圖示出了在本發明的帶寬擴展時，使用在特定點處的頻譜的信號處理的示意圖；

第四圖A示出了原始信號和提供粗糙聲音印象的測試信號之間的比較；

第四圖B示出了原始信號與也導致粗糙聽覺印象的測試信號的比較；

第五圖A示出了相位聲碼器的濾波器組實現方式的示意圖；

第五圖B示出了第五圖A中的濾波器的詳細圖示；

第五圖C示出了第五圖A的濾波器通道中的幅度信號和頻率信號的操作的示意圖；

第六圖示出了相位聲碼器的變換實現方式的示意圖；

第七圖A示出了在帶寬擴展環境中編碼器側的示意圖；以及

第七圖B示出了在音頻信號的帶寬擴展環境中解碼器側的示意圖。