TWI415115B - 用以產生帶寬擴展輸出資料之裝置與方法 - Google Patents
用以產生帶寬擴展輸出資料之裝置與方法 Download PDFInfo
- Publication number
- TWI415115B TWI415115B TW098122396A TW98122396A TWI415115B TW I415115 B TWI415115 B TW I415115B TW 098122396 A TW098122396 A TW 098122396A TW 98122396 A TW98122396 A TW 98122396A TW I415115 B TWI415115 B TW I415115B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- noise reference
- audio signal
- frequency band
- energy distribution
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Description
本發明與用於產生帶寬擴展(BWE)輸出資料的裝置與方法、音訊編碼器與音訊解碼器有關。
自然音訊編碼與語音編碼是針對音訊信號之兩個主要類別的編碼解碼器。自然音訊編碼通常用於在中間位元率的音樂或任意信號,且一般提供寬音訊帶寬。語音編碼器基本上限於語音再現且可在非常低的位元率使用。寬頻語音較窄帶語音提供重要的主觀品質提高。再者,由於多媒體領域中的巨大發展,音樂及其他非語音信號的傳輸以及儲存,以及例如針對無線電/電視(TV)透過電話系統以高品質傳輸是所期望的特徵。
為了極大地減小位元率,信號源編碼可使用分離頻帶知覺音訊編碼解碼器來執行。這些自然音訊編碼解碼器利用信號中的知覺無關及統計冗餘。如果只利用上述對於所給定的位元率限制而言是不充分的,則取樣率被減小。減小組成等級的數目也是常見的,允許偶爾可聽量化失真,且透過兩個或多個通道的立體聲合併編碼或參數編碼來使用立體聲場的降格。這些方法的大量使用導致惱人的知覺降格。為了提高編碼性能,諸如頻譜帶複製(SBR)的帶寬擴展方法被用作一種用以在以HFR(高頻重建)式編碼解碼器中產生高頻信號的有效方法。
在記錄及傳送聲響信號的過程中,諸如背景雜訊的雜訊基準通常存在。為了在解碼器端產生可靠的聲響信號,雜訊基準應遭傳送或遭產生。在後一種情況下,原始音訊信號中的雜訊基準應遭決定。在頻譜帶複製中,這透過SBR工具或SBR相關模組來執行,該等工具或模組產生係雜訊基準的特徵(其他除外)且遭傳送到解碼器以重建該雜訊基準的參數。
在WO 00/45379中,予以描述一適應性雜訊基準工具,這在所合成的高頻帶頻率分量中提供充足的雜訊成分。然而,若在基帶中,短時能量波動或所謂的暫態發生,則高頻帶頻率分量中的擾動人工因素被產生。這些人工因素是知覺不可接受的,且先前技術不提供可接受的解決方案(特別是在帶寬有限的情況下)。
因此,本發明的一個目的是提供一種裝置,該裝置允許有效編碼而沒有可感知人工因素,特別是對於語音信號而言。
這一目的透過以下裝置來實現:如申請專利範圍第1項所述之用於產生SBR輸出資料的裝置、如申請專利範圍第7項所述之編碼器、如申請專利範圍第10項所述之用於產生SBR輸出資料的方法、如申請專利範圍第13項所述之解碼器、如申請專利範圍第14項所述之用於解碼的方法、或如申請專利範圍第16項所述之經編碼音訊信號。
本發明係基於以下發現:依據音訊信號在一時間部分中的能量分佈適應性改變一所量測雜訊基準可在解碼器端提高所合成音訊信號的知覺品質。儘管形成所量測雜訊基準的適應性改變或處理不被需要的理論觀點,但是用以產生雜訊基準的習知技術顯示多個缺點。一方面,基於音調測量之雜訊基準的估計透過習知方法來執行是困難的且不總是精確的。另一方面,雜訊基準的目的是在解碼器端再現正確的音調印象。即使原始音訊信號與經解碼信號的主觀音調印象是相同的,但是仍然存在產生人工因素的可能性;例如對於語音信號而言。
主觀測試顯示不同類型的語音信號應被不同地對待。在有聲語音信號中,當與原始經計算雜訊基準相比較時,經計算雜訊基準的降低產生一知覺較高品質。結果在這種情況下語音發出較少的迴響。在音訊信號包含齒音的情況下,雜訊基準中的人工因素增加可掩蓋與齒音有關之修補方法中的缺點。例如,當遭移位或轉換到較高頻帶時,短時能量波動(暫態)產生擾動人工因素,且雜訊基準的增加也可掩蓋這些能量波動。
該等暫態可能被定義為習知信號中的多個部分,其中能量之一強烈增加出現在一短時間週期中,這可以或可以不被限制在一特定頻率區域上。暫態的例子是打擊響板及打擊樂器,以及人類聲音中的某些聲音,例如字母:P、T、K、...。到目前為止,這類暫態的檢測通常以相同的方式或相同的演算法(使用一暫態臨界值)來實施,這獨立於信號,不管信號遭分類為語音或是遭分類為音樂。此外,有聲與無聲語音之間的可能區別不影響習知的或傳統的暫態檢測機制。
因此,針對諸如有聲語音的信號,實施例提供雜訊基準的減小,以及針對包含例如齒音之信號的雜訊基準的增加。
為了區分不同的信號,實施例使用能量分佈資料(例如齒音參數),該能量分佈資料量測能量是大部分位元於較高頻率還是較低頻率,或者換句話說,音訊信號的頻譜表示朝較高頻率的方向顯示一增加還是減小傾斜。另外的實施例也使用第一LPC係數(LPC=線性預測編碼),以產生齒音參數。
存在兩種用於改變雜訊基準的可能性。第一可能性是傳送該齒音參數,藉此解碼器可使用該齒音參數,以調整雜訊基準(例如除經計算雜訊基準之外,增加還是減小雜訊基準)。除該經計算雜訊基準參數之外,該齒音參數可透過習知方法來傳送或在解碼器端遭計算。第二可能性是透過使用齒音參數(或能量分佈資料)改變該所傳送的雜訊基準,藉此編碼器將經修改雜訊基準資料傳送到解碼器,且在解碼器端不需要修改-相同的解碼器可獲使用。因此,雜訊基準的處理原則上可在編碼器端以及解碼器端被完成。
頻譜帶複製作為用於帶寬擴展的一個例子依賴定義一時間部分的SBR訊框,其中在該時間部分中音訊信號被分成在第一頻帶及第二頻帶中的分量。對於整個SBR訊框而言,雜訊基準可被量測及/或改變。可選擇性地,SBR訊框被分成雜訊包絡也是可能的,藉此對於該等雜訊包絡中的每一雜訊包絡而言,針對雜訊基準的調整可獲執行。換言之,雜訊基準工具的時間解析度透過SBR訊框中的所謂的雜訊包絡來決定。根據標準(ISO/IEC 14496-3),每一SBR訊框最多包含兩個雜訊包絡,藉此雜訊基準的調整可在基本部分SBR訊框上進行。對於一些應用而言,這可能是足夠的。然而,增加雜訊包絡的數目,以改良用於時變音調的模型也是可能的。
因此,實施例包含一種用於針對一音訊信號產生BWE輸出資料的裝置,其中該音訊信號包含第一頻帶及第二頻帶中的分量,且該BWE輸出資料適於控制第二頻帶中之分量的合成。該裝置包含用於在該音訊信號的一時間部分量測該第二頻帶中之雜訊基準資料的一雜訊基準測量器。因為所量測的雜訊基準影響音訊信號的音調,所以雜訊基準測量器可包含一音調測量器。可選擇性地,該雜訊基準測量器可遭實施,以量測信號中的噪音量,以獲得雜訊基準。該裝置進一步包含用於得出能量分佈資料的一信號能量表徵器,其中該能量分佈資料係在該音訊信號之該時間部分之一頻譜中的能量分佈的特徵,最後,該裝置包含用於組合雜訊基準資料與能量分佈資料以獲得BWE輸出資料的一處理器。
在另外的實施例中,信號能量表徵器適於將齒音參數用作能量分佈資料,且該齒音參數可例如是第一LPC係數。在另外的實施例中,處理器適於將能量分佈資料加入到經編碼音訊資料的位元流中,或者可選擇性地,該處理器適於調整雜訊基準參數,藉此雜訊基準依據能量分佈資料被增加或被減小(信號依賴)。在這個實施例中,雜訊基準測量器將首先量測雜訊基準,以產生雜訊基準資料,該雜訊基準資料稍後將由該處理器來調整或改變。
在另外的實施例中,時間部分是一SBR訊框,且信號能量表徵器適於每一SBR訊框產生多個雜訊基準包絡。因此,雜訊基準測量器以及信號能量表徵器可能適於針對每一雜訊基準包絡量測雜訊基準資料以及所得出的能量分佈資料。雜訊基準包絡的數目可以是例如1、2、4、...。
另外的實施例也包含用於一解碼器的一頻譜帶複製工具,用以產生音訊信號之第二頻帶中的分量。在這一產生頻譜帶複製中,在第二頻帶中之分量的頻譜帶複製輸出資料與原始信號頻譜表示獲使用。頻譜帶複製工具包含一雜訊基準計算單元及一組合器,其中該雜訊基準計算單元受組配以根據能量分佈資料計算雜訊基準,而該組合器用於組合該原始信號頻譜表示與該經計算雜訊基準,以產生具有該經計算雜訊基準的第二頻帶中的分量。
實施例的一個優點是組合一外部決策(語音/音訊)與一內部有聲語音檢測器或一內部齒音檢測器(一信號能量表徵器),其中該內部齒音檢測器控制正遭發信到解碼器之額外雜訊的事件或調整經計算雜訊基準。對於非語音信號而言,通常的雜訊基準計算獲執行。對於語音信號(從外部切換決策得出)而言,一額外的語音分析獲執行,以決定實際信號的發聲。將被加入到解碼器或編碼器之雜訊的數量依據信號的齒音程度(與發聲相反)來縮放。齒音的程度可遭決定,例如透過量測短信號部分的頻譜傾斜。
本發明現將透過所說明的例子之方式予以描述。透過參考以下詳細描述,本發明的特徵將較容易地被理解且較佳地被理解,其中該詳細描述應被視為參考所附圖式,其中:第1圖顯示根據本發明之實施例的用於產生BWE輸出資料之裝置的方塊圖;第2a圖繪示一無齒音信號的負頻譜傾斜;第2b圖繪示一齒音形式信號的正頻譜傾斜;第2c圖基於低階LPC參數解釋頻譜傾斜m的計算;第3圖顯示一編碼器的方塊圖;第4圖顯示用於處理經編碼音訊串流以在解碼器端輸出PCM樣本的方塊圖;第5a圖、第5b圖顯示根據實施例的一習知雜訊基準計算工具與一經修改雜訊基準計算工具的比較;以及第6圖繪示一SBR訊框在一預定數目時間部分中的劃分。
第1圖繪示用於針對一音訊信號105產生帶寬擴展(BWE)輸出資料102的一裝置100。該音訊信號105包含第一頻帶105a中的分量及第二頻帶105b中的分量。該BWE輸出資料102適於控制該第二頻帶105b中之分量的合成。該裝置100包含一雜訊基準測量器110、一信號能量表徵器120及一處理器130。該雜訊基準測量器110適於在音訊信號105的一時間部分量測或決定第二頻帶105b的雜訊基準資料115。詳細地,雜訊基準可透過比較基帶的所量測雜訊與較高頻帶的所量測雜訊來決定,藉此在修補後用以再現自然音調印象所需雜訊的數量可被決定。該信號能量表徵器120得出係該音訊信號105之該時間部分之一頻譜中的能量分佈之特徵的能量分佈資料125。因此該雜訊基準測量器110接收例如第一及/或第二頻帶105a、105b,且信號能量表徵器120接收例如第一及/或第二頻帶105a、105b。處理器130接收雜訊基準資料115及能量分佈資料125,且將該等資料組合以獲得BWE輸出資料102。頻譜帶複製包含用於帶寬擴展的一個例子,其中該BWE輸出資料102變成SBR輸出資料。接下來的實施例將主要描述SBR的例子,但是發明裝置/方法不限於這個例子。
能量分佈資料125指示第二頻帶中所包含的能量與第一頻帶中所包含的能量之間相比較的關係。在最簡單的情況下,能量分佈資料由一位元給出,該位元指示與SBR頻帶(較高頻帶)相比較,是否有較多的能量遭儲存在基帶中,或者反之亦然。SBR頻帶(較高頻帶)可例如被定義為大於可例如由4kHz給出之一臨界值的頻率分量,且基帶(較低頻帶)可能是小於這一臨界值頻率(例如小於4kHz或另一頻率)的信號分量。這些臨界值頻率的例子大概是5kHz或6kHz。
第2a圖及第2b圖顯示音訊信號105之一時間部分中的頻譜中的兩個能量分佈。由位準P所顯示的能量分佈作為頻率F(類比信號)的函數,其也可能是由多個樣本或線(遭轉換到頻域)所給出之信號的包絡。該所示曲線圖也較簡單,以使頻譜傾斜概念形象化。較低及較高頻帶可被定義為小於或大於一臨界頻率F0
的頻率(橫跨例如500Hz、1kHz或2kHz的頻率)。
第2a圖顯示顯示出一下降頻譜傾斜(隨著較高頻率而減小)的能量分佈。換言之,在這種情況下,與高頻率分量相比較,有較多的能量遭儲存在低頻率分量中。因此,對於較高頻率而言,位準P減小,意指一負頻譜傾斜(減小函數)。因此,若信號位準P指示在較高頻帶(F>F0
)較較低頻帶(F<F0
)中有較少的能量,則位準P包含一負頻譜傾斜。這種類型的信號發生,例如對於包含一低齒音或無齒音的一音訊信號而言。
第2b圖顯示這種情況,其中位準P隨著頻率F增加,意指一正頻譜傾斜(依據頻率之位準P的增加函數)。因此,若信號位準P指示在較高頻帶(F>F0
)較較低頻帶(F<F0
)有較多的能量,則位準P包含一正頻譜傾斜。若音訊信號105包含例如該等齒音,則這樣的一能量分佈被產生。
第2a圖繪示具有一負頻譜傾斜之信號的功率譜。負頻譜傾斜表示頻譜的下降斜率。與之相反,第2b圖繪示具有一正頻譜傾斜之信號的功率譜。換言之,這一頻譜傾斜具有一上升斜率。當然,諸如在第2a圖中所繪示之頻譜或在第2b圖中所繪示之頻譜中的每一頻譜在具有不同於頻譜傾斜之斜率的局部範圍內將具有變化。
當例如諸如透過使一直線與實際頻譜之間的平方差最小化使這一直線裝配到該功率譜時,頻譜傾斜可被獲得。將一直線裝配到頻譜可能是用於計算一短時頻譜之頻譜傾斜的其中一種方法。然而,使用LPC係數計算頻譜傾斜是較佳的。
V.Goncharoff、E.Von Colln及R.Morris、Naval Command、Control and Ocean Surveillance Center (NCCOSC)、RDT及E Division、San Diego、CA 92152-52001的出版物“Efficient calculation of spectral tilt from various LPC parameters”(於1996年5月23日出版)揭露了用以計算頻譜傾斜的若干方法。
在一個實施態樣中,頻譜傾斜被定義為針對對數功率譜之最小平方線性擬合(linear fit)的斜率。然而,針對非對數功率譜或振幅譜或任何其他形式頻譜的線性擬合也可被施加。這一點在本發明之脈絡中特別正確,其中在較佳實施例中,我們主要對頻譜傾斜的符號,即線性擬合結果的斜率是正還是負感興趣。然而,頻譜傾斜的實際值在本發明的高效實施例中不太重要,但是該實際值在較詳細實施例中可能是重要的。
當語音的線性預測編碼(LPC)用來模製其短時頻譜時,直接從LPC模型參數而非對數功率譜計算頻譜傾斜在計算上較有效。第2c圖繪示與第n階全極對數功率譜相對應之倒頻譜係數ck
的方程式。在這一方程式中,k是整數索引,pn
是LPC濾波器之z域轉換函數H(z)的全極表示中的第n極。第2c圖中的下一個方程式是依據倒頻譜係數的頻譜傾斜。特別地,m是頻譜傾斜,k及n是整數,及N是H(z)之全極模型的最高階極點。第2c圖中的下一個方程式定義第N階LPC濾波器的對數功率譜S(ω)。G是增益常數,且αk
是線性預測器係數,且ω等於2×π×f,其中f是頻率。第2c圖中的最下面的方程式直接產生倒頻譜係數作為LPC係數αk
的函數。然後倒頻譜係數ck
用來計算頻譜傾斜。一般而言,這種方法較分解LPC多項式以獲得極值及使用極方程式求解頻譜傾斜將在計算上將較有效。因此,在計算LPC係數αk
後,我們可使用在第2c圖中的底部的方程式計算倒頻譜係數ck
,然後我們可使用第2c圖中的第一個方程式從該等倒頻譜係數計算極點pn
。然後基於該等極點,我們可在第2c圖中的第二個方程式中所定義的計算頻譜傾斜m。
已發現的是,第一階LPC係數α1
對於具有頻譜傾斜之符號的良好估計而言是充分的。因此,α1
是c1
的良好估計。因此,c1
是p1
的良好估計。當p1
遭插入到為得到頻譜傾斜m的方程式時,變得清楚的是,由於第2c圖中之第二個方程式中的負符號,頻譜傾斜m的符號與在第2c圖中之LPC係數定義中的第一LPC係數α1
的符號相反。
較佳地,信號能量表徵器120受組配以產生與在音訊信號之一目前時間部分中的該音訊信號的頻譜傾斜的符號有關的一指示作為能量分佈資料。
較佳地,信號能量表徵器120受組配以產生從用於估計一個或多個低階LPC係數的音訊信號之一時間部分的LPC分析得出的資料作為能量分佈資料,以及從該等一個或多個低階LPC係數得出能量分佈資料。
較佳地,信號能量表徵器120受組配以只計算第一LPC係數而不計算額外的LPC係數且從該第一LPC係數的符號得出能量分佈資料。
較佳地,信號能量表徵器120受組配用於決定頻譜傾斜為一負頻譜傾斜,其中當第一LPC係數具有一正符號時,頻譜能量從較低頻率到較高頻率減小,以及檢測頻譜傾斜為一正頻譜傾斜,其中當該第一LPC係數具有一負符號時,頻譜能量從較低頻率到較高頻率增加。
在其他實施例中,頻譜傾斜檢測器或信號能量表徵器120受組配以不只計算第一階LPC係數,而且計算若干低階LPC係數,諸如直到3階或4階或甚至更高階的LPC係數。在這樣一個實施例中,頻譜傾斜按如此高的精確度計算,以至於我們不能只指示符號作為一齒音參數,而且作為依據傾斜的一值,如在該符號實施例中其具有兩個以上的值。
如上所述,在較高頻率區域中齒音包含大量的能量,而對於不具有或只具有很少齒音(例如母音)的部分,能量大部分分佈在基帶(低頻帶)中。這一觀察可被使用,以決定一語音信號部分是否包含齒音或所包含的程度。
因此,雜訊基準測量器110(檢測器)可使用頻譜傾斜,以得到關於齒音數量的決策或給出信號中的齒音程度。頻譜傾斜基本上可從能量分佈的簡單LPC分析獲得。其可能例如足以計算第一LPC係數,以決定頻譜傾斜參數(齒音參數),因為頻譜的行為(是增加還是減小函數)可從第一LPC係數推斷。這一分析可在信號能量表徵器120中獲執行。如果音訊編碼器使用LPC用以解碼音訊信號,則有可能不需要傳送齒音參數,因為第一LPC係數可能在解碼器端被用作能量分佈資料。
在實施例中,處理器130可能受組配以根據能量分佈資料125(頻譜傾斜)改變雜訊基準資料115,以獲得經修改的雜訊基準資料,且處理器130可能受組配以將該經修改的雜訊基準資料加入到包含BWE輸出資料102的一位元流中。雜訊基準資料115的改變可能,使與包含較少齒音(第2a圖)的音訊信號105相比較,包含較多齒音(第2b圖)的音訊信號105之經修改雜訊基準被增加。
用於產生帶寬擴展(BWE)輸出資料102的裝置100可能是編碼器300的一部分。第3圖顯示編碼器300的一實施例,該編碼器300包含BWE相關模組310(其可能包含例如SBR相關模組)、一分析QMF組320、一低通濾波器(LP濾波器)330、一AAC核心編碼器340及一位元串流有效負載格式器350。此外,編碼器300包含包絡資料計算器210。編碼器300包含一PCM樣本(音訊信號105;PCM=脈衝碼調變)輸入端,該輸入端連接到分析QMF組320及BWE相關模組310及LP濾波器330。分析QMF組320可包含用以分離第二頻帶105b的一高通濾波器且連接到包絡資料計算器210,該包絡資料計算器210接著連接到位元串流有效負載格式器350。LP濾波器330可包含用以分離第一頻帶105a的一低通濾波器且連接到AAC核心編碼器340,該AAC核心編碼器340接著連接到位元串流有效負載格式器350。最後,BWE相關模組310連接到包絡資料計算器210及AAC核心編碼器340。
因此,編碼器300降低取樣音訊信號105,以產生核心頻帶105a中的分量(在LP濾波器330中),該等分量遭輸入到AAC核心編碼器340中,該AAC核心編碼器340編碼核心頻帶中的音訊信號,以及將經編碼信號355轉發到位元串流有效負載格式器350,其中核心頻帶的經編碼音訊信號355遭加入到經編碼音訊串流345(一位元串流)中。另一方面,音訊信號105透過分析QMF組320來分析,且該分析QMF組的高通濾波器擷取高頻帶105b中的頻率分量,且將這一信號輸入到包絡資料計算器210中,以產生BWE資料375。例如,一64子頻帶QMF組320執行輸入信號的子頻帶濾波。來自濾波器組的輸出(即子頻帶樣本)是複數值,從而與一規則QMF組相比,被兩倍超取樣。
BWE相關模組310可例如包含用於產生BWE輸出資料102的裝置100,且透過例如將BWE輸出資料102(齒音參數)提供到包絡資料計算器210來控制該包絡資料計算器210。使用由分析QMF組320產生的音訊分量105b,包絡資料計算器210計算BWE資料375且將該BWE資料375轉發給位元串流有效負載格式器350,該位元串流有效負載格式器350組合BWE資料375與透過核心編碼器340編碼的分量355在經編碼音訊串流345中。此外,包絡資料計算器210可例如使用齒音參數125,以調整雜訊包絡中的雜訊基準。
可選擇性地,用於產生BWE輸出資料102的裝置100也可以是包絡資料計算器210的一部分,且處理器也可以是位元流有效負載格式器350的一部分。因此,裝置100中的不同元件可以是第3圖中的不同編碼器元件的一部分。
第4圖顯示一解碼器400的一實施例,其中經編碼音訊串流345遭輸入到使經編碼音訊信號355與BWE資料375分離的一位元串流有效負載解格式器357中。經編碼音訊信號355遭輸入到例如一AAC核心解碼器360中,該AAC核心解碼器360產生第一頻帶中的經解碼音訊信號105a。音訊信號105a(第一頻帶中的分量)遭輸入到一分析32頻帶QMF組370中,該分析32頻帶QMF組370從第一頻帶中的音訊信號105a產生例如32頻率子頻帶10532
。該頻率子頻帶音訊信號10532
遭輸入到補丁產生器410中,以產生一原始信號頻譜表示425(補丁),其遭輸入到一BWE工具430a中。該BWE工具430a可例如包含用以產生一雜訊基準的一雜訊基準計算單元。此外,該BWE工具430a可重建丟失的諧波或執行一反向濾波步驟。BWE工具430a可實施將用在補丁產生器410之QMF頻譜資料輸出端的已知頻譜帶複製方法,用在頻域中的修補演算法可例如使用頻域中的頻譜資料的簡單鏡像或複製。
另一方面,BWE資料375(例如包含BWE輸出資料102)遭輸入到一位元串流剖析器380中,該位元串流剖析器380分析BWE資料375,以獲得不同的子資訊385,且將其等輸入到例如擷取控制資訊412及頻譜帶複製參數102的一霍夫曼(Huffman)解碼與解量化單元390中。該控制資訊412控制補丁產生器410(例如以使用一特定修補演算法),且BWE參數102也包含例如能量分佈資料125(例如齒音參數)。控制資訊412遭輸入到BWE工具430a中,且頻譜帶複製參數102遭輸入到BWE工具430a以及一包絡調整器430b中。該包絡調整器430b可操作以調整所產生補丁的包絡。因此,包絡調整器430b產生第二頻帶的經調整原始信號105b,且將其輸入到一合成QMF組440中,該合成QMF組440組合第二頻帶105b中的分量與頻域10532
中的音訊信號。合成QMF組440可例如包含64個頻帶以及透過組合兩個信號(第二頻帶105b中的分量與頻域音訊信號10532
)產生合成音訊信號105(例如PCM樣本輸出,PCM=脈衝碼調變)。
合成QMF組440可包含一組合器,該組合器在第二頻帶105b將遭轉換到時域之前且在其將作為音訊信號105被輸出之前組合頻域信號10532
與該第二頻帶105b。選擇性地,組合器可輸出頻域中的音訊信號105。
BWE工具430a可包含一習知雜訊基準工具,該雜訊基準工具將額外的雜訊加入到經修補頻譜(原始信號頻譜表示425),藉此頻譜分量105a顯示出原始信號之第二頻帶105b的音調,其中該頻譜分量105a已由核心編碼器340傳送且將用來合成第二頻帶105b的分量。然而,特別是在有聲語音路徑中,由習知雜訊基準工具加入的額外的雜訊可能損害所再現信號的知覺品質。
根據實施例,雜訊基準工具可被修改,藉此雜訊基準工具考慮能量分佈資料125(BWE資料102的一部分),以根據所檢測到的齒音程度改變雜訊基準(參考第2圖)。可選擇性地,如上所述,解碼器可不被修改,而相反編碼器可根據所檢測到的齒音程度改變雜訊基準資料。
第5圖顯示根據本發明之實施例的一習知雜訊基準計算工具與一經修改雜訊基準計算工具的比較。該經修改雜訊基準計算工具可以是BWE工具430的一部分。
第5a圖顯示包含一計算器433的習知雜訊基準計算工具,其使用頻譜帶複製參數102及原始信號頻譜表示425,以計算原始頻譜線與雜訊頻譜線。BWE資料102可包含包絡資料與雜訊基準資料,該等資料從編碼器遭傳送作為經編碼音訊串流345的一部分。原始信號頻譜表示425例如從一補丁產生器獲得,該補丁產生器產生較高頻帶中的音訊信號分量(第二頻帶105b中的合成分量)。原始頻譜線與雜訊頻譜線將進一步被處理,這可能涉及反向濾波、包絡調整、加入丟失諧波等等。最後,組合器434組合原始頻譜線與經計算雜訊頻譜線到第二頻帶105b中的分量。
第5b圖顯示根據本發明之實施例的一雜訊基準計算工具。除在第5a圖中所示的習知雜訊基準計算工具之外,實施例包含一雜訊基準修改單元431,該雜訊基準修改單元431受組配以例如在能量分佈資料125在雜訊基準計算工具433中被處理之前基於該能量分佈資料125修改所傳送的雜訊基準資料。能量分佈資料125也可從編碼器遭傳送作為BWE資料102的一部分,或除BWE資料102之外,能量分佈資料125也可從編碼器遭傳送。所傳送雜訊基準資料的修改包含,例如雜訊基準之位準的正頻譜傾斜的增加(參考第2a圖)或雜訊基準之位準的負頻譜傾斜的減小(參考第2b圖),例如增加3dB或減小3dB或任一其他離散值(例如+/-1dB或+/-2dB)。該離散值可以是一整數dB值或一非整數dB值。在減小/增加與頻譜傾斜之間也可能存在函數依賴(例如線性相關)。
基於這一經修改雜訊基準資料,雜訊基準計算工具433基於可再次從一補丁產生器獲得的原始信號頻譜表示425再次計算原始頻譜線與經修改雜訊頻譜線。第5b圖中的頻譜帶複製工具430也包含一組合器434,該組合器434用於組合原始頻譜線與經計算雜訊基準(包括來自修改單元431的修改),以產生第二頻帶105b中的分量。
能量分佈資料125可指示最簡單情況下的雜訊基準資料之所傳送位準中的修改。如上所述,第一LPC係數同樣可用作能量分佈資料125。因此,若音訊信號105已使用LPC編碼,另外的實施例使用第一LPC係數,該第一LPC係數已透過經編碼音訊串流345來傳送作為能量分佈資料125。在這種情況下,除能量分佈資料125之外,不需要傳送。
可選擇性地,雜訊基準的修改也可在計算器433中的計算之後執行,藉此雜訊基準修改單元431可在處理器433之後獲配置。在另外的實施例中,能量分佈資料125可直接輸入到計算器433中,該計算器433直接修改雜訊基準的計算作為計算參數。因此,雜訊基準修改單元431及計算器/處理器433可組合成一雜訊基準修改器(modifier)工具433、431。
在另一實施例中,包含雜訊基準計算工具的BWE工具430包含一開關,其中該開關受組配以在雜訊基準的一高位準(正頻譜傾斜)與雜訊基準的一低位準(負頻譜傾斜)之間切換。該高位準可例如與其中所傳送的雜訊位準被加倍(或被乘以一因數)之情況相對應,而低位準與其中所傳送位準被減小一因數之情況相對應。開關可受經編碼音訊信號345之位元串流中的一位元控制,該位元指示音訊信號的一正或負頻譜傾斜。可選擇性地,該開關也可透過分析經解碼音訊信號105a(第一頻帶中的分量)或頻率子頻帶音訊信號10532
來啟動,例如針對頻率傾斜(頻率傾斜是正還是負)。可選擇性地,開關也可由第一LPC係數控制,因為這一係數指示頻率傾斜(參考上文)。
儘管第1圖、第3圖至第5圖中的一些被繪示為裝置方塊圖,這些圖式同時是一種方法的繪示,其中方塊的功能與方法步驟相對應。
如上所述,一SBR時間單元(SBR訊框)或一時間部分可遭分成各種資料區塊、所謂的包絡。這一劃分在SBR訊框上可能是均勻的且允許彈性調整SBR訊框中之音訊信號的合成。
第6圖繪示在一數目n個包絡中針對SBR訊框的這種劃分。SBR訊框覆蓋在開始時間t0
與一結束時間tn
之間的一時間週期或時間部分T。該時間部分T例如遭分成八個時間部分:第一時間部分T1、第二時間部分T2、...、第八時間部分T8。在這個例子中,包絡的最大數目與時間部分的數目相符,且被給出n=8。該等8個時間部分T1、...、T8由7個邊界分開,這意味著邊界1分開第一與第二時間部分T1、T2,邊界2遭設置在第二部分T2與第三部分T3之間等等,直到邊界8分開第七部分T7與第八部分T8。
在另外的實施例中,SBR訊框被分成四個雜訊包絡(n=4)或者被分成兩個雜訊包絡(n=2)。在第6圖中所示的實施例中,所有包絡包含相同的時間長度,在其他實施例中該時間長度可能是不同的,藉此雜訊包絡覆蓋不同的時間長度。詳細地,具有兩個雜訊包絡(n=2)的情況包含在第一到第四時間部分(T1、T2、T3及T4)上從時間t0
延伸的第一包絡及覆蓋第五到第八時間部分(T5、T6、T7及T8)的第二雜訊包絡。由於標準ISO/IEC 14496-3,包絡的最大數目限制為2。但是實施例可使用任何數目的包絡(例如兩個、四個或八個包絡)。
在另外的實施例中,包絡資料計算器210受組配以依據所量測雜訊基準資料115的改變來改變包絡的數目。例如,若所量測雜訊基準資料115指示一變化雜訊位準(例如大於一臨界值),則包絡的數目可能被增加,而在雜訊基準資料115指示一恆定雜訊基準的情況下,包絡的數目可能被減小。
在其他實施例中,信號能量表徵器120可能係基於語言資訊,以檢測語音中的齒音。當例如一語音信號具有相關聯元資訊(諸如國際語音拼字)時,這一元資訊的分析也將提供語音部分的齒音檢測。在這一脈絡中,音訊信號的元資料部分被分析。
儘管一些層面已在一種裝置的脈絡中予以描述,但是清楚的是,這些層面也代表相對應方法的描述,其中方塊或裝置與方法步驟或方法步驟的特徵相對應。類似地,在方法步驟之脈絡中所描述的層面也代表相對應方塊或項目或相對應裝置之特徵的描述。
發明經編碼音訊信號可儲存在一數位儲存媒體上或可在諸如無線傳輸媒體的傳輸媒體或諸如網際網路的有線傳輸媒體上遭傳送。
依據某些實施要求,本發明的實施例可在硬體或軟體中來實施。實施可使用其上儲存有電子可讀控制信號的數位儲存媒體來執行,例如軟式磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該等電氣可讀控制信號可與一可規劃電腦系統協同工作(或能夠協同工作),藉此各自的方法獲執行。
根據本發明的一些實施例包含具有電氣可讀控制信號的一資料載體,該等電氣可讀控制信號可與一可規劃電腦系統協同工作,藉此於此所述的其中一種方法獲執行。
一般地,本發明的實施例可實施為具有程式碼的一電腦程式產品,當該電腦程式產品在一電腦上執行時,該程式碼可操作用以執行其中的一種方法。該程式碼可例如儲存在一機器可讀載體上。
其他實施例包含用以執行於此所述之其中一種方法的儲存在一機器可讀載體上的電腦程式。
換言之,本發明方法的一實施例因此是具有程式碼的一電腦程式,當該電腦程式在一電腦上執行時,該程式碼用以執行於此所述的其中一種方法。
本發明方法的另一實施例因此是包含、其上記錄電腦程式的一資料載體(或一數位儲存媒體、或一電腦可讀媒體),該電腦程式用以執行於此所述的其中一種方法。
本發明方法的又一實施例因此是代表電腦程式的一資料串流或一信號序列,該電腦程式用以執行於此所述的其中一種方法。該資料串流或信號序列可例如受組配以藉由一資料通訊連接體(例如藉由網際網路)來傳送。
再一實施例包含受組配以或適於執行於此所述之其中一種方法的一處理裝置,例如一電腦或一可規劃邏輯裝置。
另一實施例包含其上安裝用以執行於此所述之其中一種方法之電腦程式的電腦。
在一些實施例中,一可規劃邏輯裝置(例如一現場可規劃閘陣列)可用來執行於此所述方法之功能中的一些或全部。在一些實施例中,一現場可規劃閘陣列可與一微處理器協同工作,以執行於此所述的其中一種方法。一般地,該等方法較佳地透過任一硬體裝置來執行。
就本發明的原理而言,上述實施例只是說明性的。需理解的是,於此所述配置及細節的修改與變化對於本技藝領域中的其他具有通常知識者而言將是顯而易見的。因此,打算只受即將發生的專利申請範圍之範圍的限制,而不受透過於此實施例的描述與解釋所提出的特定細節的限制。
1、2、3、4、5、6、7...第一、第二、第三、第四、第五、第六、第七部分
100...裝置
102...BWE輸出資料
105...音訊信號
105a、105b...頻譜分量/頻帶
10532
...頻率子頻帶音訊信號
110...雜訊基準測量器
115...雜訊基準資料
120...信號能量表徵器
125...能量分佈資料
130...處理器
210...包絡資料計算器
300...編碼器
310...BWE相關模組
320...分析QMF組
330...低通濾波器/LP濾波器
340...AAC核心編碼器
345...經編碼音訊串流
350...位元串流有效負載格式器
355...經編碼音訊信號
357...位元串流有效負載解格式器
360...AAC核心解碼器
370...分析32頻帶QMF組
375...BWE資料
380...位元串流剖析器
385...子資訊
390...霍夫曼(Huffman)解碼與解量化單元
400...解碼器
410...補丁產生器
412...控制資訊
425...原始信號頻譜表示
430、430a...BWE工具
430b...包絡調整器
431...雜訊基準修改單元
433...雜訊基準計算工具
434...組合器
440...合成QMF組
第1圖顯示根據本發明之實施例的用於產生BWE輸出資料之裝置的方塊圖;第2a圖繪示一無齒音信號的負頻譜傾斜;第2b圖繪示一齒音形式信號的正頻譜傾斜;第2c圖基於低階LPC參數解釋頻譜傾斜m的計算;第3圖顯示一編碼器的方塊圖;第4圖顯示用於處理經編碼音訊串流以在解碼器端輸出PCM樣本的方塊圖;第5a圖、第5b圖顯示根據實施例的一習知雜訊基準計算工具與一經修改雜訊基準計算工具的比較;以及第6圖繪示一SBR訊框在一預定數目時間部分中的劃分。
100...裝置
102...BWE輸出資料
105a、105b...頻譜分量/頻帶
110...雜訊基準測量器
115...雜訊基準資料
120...信號能量表徵器
125...能量分佈資料
130...處理器
Claims (9)
- 一種用於針對一音訊信號產生帶寬擴展輸出資料的裝置,該音訊信號包含一第一頻帶中的分量及一第二頻帶中的分量,該帶寬擴展輸出資料適於控制該第二頻帶中的該等分量的合成,該裝置包含:一雜訊基準測量器,用於在該音訊信號的一時間部分(T)量測該第二頻帶中的雜訊基準資料;一信號能量表徵器,用於得出能量分佈資料,該能量分佈資料係在該音訊信號之該時間部分(T)之一頻譜中的一能量分佈的特徵;以及一處理器,用於組合該雜訊基準資料與該能量分佈資料,以獲得該帶寬擴展輸出資料;其中該處理器受組配以根據該能量分佈資料改變該雜訊基準資料,以獲得經修改雜訊基準資料,且其中該處理器受組配以將該經修改雜訊基準資料加入到一位元流作為該帶寬擴展輸出資料;以及其中該雜訊基準資料的該改變,使得對於包含一第一齒音量的一音訊信號與包含一第二齒音量的一音訊信號相較之下,增加該經修改雜訊基準,該第一齒音量大於該第二齒音量。
- 如申請專利範圍第1項所述之裝置,其中該信號能量表徵器受組配以使用一齒音參數或一頻譜傾斜參數作為能量分佈資料,該齒音參數或頻譜傾斜參數識別該音訊信號隨頻率(F)的一增加或減小位準。
- 如申請專利範圍第2項所述之裝置,其中該信號能量表徵器受組配以使用該第一線性預測編碼係數作為該齒音參數。
- 如前述申請專利範圍項中的任一項所述之裝置,其中該處理器受組配以將該雜訊基準資料與該頻譜能量分佈資料加入到一位元流作為該帶寬擴展輸出資料。
- 一種用於編碼一音訊信號的編碼器,該音訊信號包含一第一頻帶中的分量及一第二頻帶中的分量,該編碼器包含:一核心編碼器,用於編碼該第一頻帶中的該等分量;如申請專利範圍第1項到第4項中的任一項所述之裝置;以及一包絡資料計算器,用以基於該第二頻帶中的分量計算帶寬擴展資料,其中該經計算帶寬擴展資料包含該帶寬擴展輸出資料。
- 如申請專利範圍第5項所述之編碼器,其中該時間部分(T)涵蓋一SBR訊框,該SBR訊框包含多個雜訊包絡,且其中該包絡資料計算器受組配以針對該等多個雜訊包絡中的不同雜訊包絡計算不同的帶寬擴展資料。
- 如申請專利範圍第5項所述之編碼器,其中該包絡資料計算器受組配以依據該所量測雜訊基準資料的一改變來改變包絡之一數目。
- 一種用於針對一音訊信號產生帶寬擴展輸出資料的方 法,該音訊信號包含一第一頻帶中的分量及一第二頻帶中的分量,該帶寬擴展輸出資料適於控制該第二頻帶中的該等分量的合成,該方法包含以下步驟:在該音訊信號的一時間部分(T)量測該第二頻帶中的雜訊基準資料;得出能量分佈資料,該能量分佈資料係在該音訊信號之該時間部分(T)之一頻譜中的一能量分佈的特徵;以及組合該雜訊基準資料與該能量分佈資料,以獲得該帶寬擴展輸出資料;其中在該組合步驟中根據該能量分佈資料改變該雜訊基準資料,以獲得經修改雜訊基準資料,且其中該經修改雜訊基準資料被加入到一位元流以作為該帶寬擴展輸出資料;以及其中該雜訊基準資料的該改變,使得與包含較少齒音的一音訊信號相比較之下,針對包含較多齒音的一音訊信號增加該經修改雜訊基準。
- 一種電腦程式產品,其包含一電腦程式,當該電腦程式在一電腦上執行時用以執行如申請專利範圍第8項所述之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7984108P | 2008-07-11 | 2008-07-11 | |
PCT/EP2009/004521 WO2010003544A1 (en) | 2008-07-11 | 2009-06-23 | An apparatus and a method for generating bandwidth extension output data |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201007701A TW201007701A (en) | 2010-02-16 |
TWI415115B true TWI415115B (zh) | 2013-11-11 |
Family
ID=40902067
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098122397A TWI415114B (zh) | 2008-07-11 | 2009-07-02 | 用於計算頻譜包絡數目之裝置與方法 |
TW098122396A TWI415115B (zh) | 2008-07-11 | 2009-07-02 | 用以產生帶寬擴展輸出資料之裝置與方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098122397A TWI415114B (zh) | 2008-07-11 | 2009-07-02 | 用於計算頻譜包絡數目之裝置與方法 |
Country Status (20)
Country | Link |
---|---|
US (2) | US8296159B2 (zh) |
EP (2) | EP2301028B1 (zh) |
JP (2) | JP5551694B2 (zh) |
KR (5) | KR101395250B1 (zh) |
CN (2) | CN102089817B (zh) |
AR (3) | AR072480A1 (zh) |
AU (2) | AU2009267532B2 (zh) |
BR (2) | BRPI0910517B1 (zh) |
CA (2) | CA2729971C (zh) |
CO (2) | CO6341676A2 (zh) |
ES (2) | ES2539304T3 (zh) |
HK (2) | HK1156140A1 (zh) |
IL (2) | IL210196A (zh) |
MX (2) | MX2011000367A (zh) |
MY (2) | MY155538A (zh) |
PL (2) | PL2301027T3 (zh) |
RU (2) | RU2494477C2 (zh) |
TW (2) | TWI415114B (zh) |
WO (2) | WO2010003544A1 (zh) |
ZA (2) | ZA201009207B (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9177569B2 (en) | 2007-10-30 | 2015-11-03 | Samsung Electronics Co., Ltd. | Apparatus, medium and method to encode and decode high frequency signal |
JP5588025B2 (ja) | 2010-03-09 | 2014-09-10 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | パッチ境界整合を用いてオーディオ信号を処理するための装置および方法 |
JP5649084B2 (ja) | 2010-03-09 | 2015-01-07 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 再生速度またはピッチを変更する際にオーディオ信号における過渡音声事象を処理するための装置および方法 |
JP5854520B2 (ja) | 2010-03-09 | 2016-02-09 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法 |
PT2559029T (pt) * | 2010-04-13 | 2019-05-23 | Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Wss E V | Método e codificador e descodificador para reprodução sem lacunas de um sinal de áudio |
TR201904117T4 (tr) * | 2010-04-16 | 2019-05-21 | Fraunhofer Ges Forschung | Kılavuzlu bant genişliği uzantısı ve gözü kapalı bant genişliği uzantısı kullanılarak bir geniş bantlı sinyal üretilmesine yönelik aparat, yöntem ve bilgisayar programı. |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5743137B2 (ja) * | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5633431B2 (ja) * | 2011-03-02 | 2014-12-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
CN103548077B (zh) | 2011-05-19 | 2016-02-10 | 杜比实验室特许公司 | 参数化音频编译码方案的取证检测 |
US9633654B2 (en) * | 2011-12-06 | 2017-04-25 | Intel Corporation | Low power voice detection |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
ES2549953T3 (es) * | 2012-08-27 | 2015-11-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada |
EP2869299B1 (en) * | 2012-08-29 | 2021-07-21 | Nippon Telegraph And Telephone Corporation | Decoding method, decoding apparatus, program, and recording medium therefor |
EP2709106A1 (en) * | 2012-09-17 | 2014-03-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
EP3680899B1 (en) * | 2013-01-29 | 2024-03-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method and computer program using an increased temporal resolution in temporal proximity of offsets of fricatives or affricates |
RU2625945C2 (ru) * | 2013-01-29 | 2017-07-19 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии |
MX347080B (es) * | 2013-01-29 | 2017-04-11 | Fraunhofer Ges Forschung | Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp). |
RU2665228C1 (ru) * | 2013-04-05 | 2018-08-28 | Долби Интернэшнл Аб | Аудиокодер и декодер для кодирования по форме волны с перемежением |
CN109509478B (zh) | 2013-04-05 | 2023-09-05 | 杜比国际公司 | 音频处理装置 |
EP3008726B1 (en) | 2013-06-10 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
SG11201510164RA (en) | 2013-06-10 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding |
RU2642894C2 (ru) * | 2013-06-21 | 2018-01-29 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиодекодер, имеющий модуль расширения полосы частот с модулем регулирования энергии |
EP2830063A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for decoding an encoded audio signal |
CN105408955B (zh) * | 2013-07-29 | 2019-11-05 | 杜比实验室特许公司 | 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法 |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
KR101913241B1 (ko) | 2013-12-02 | 2019-01-14 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 인코딩 방법 및 장치 |
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US10120067B2 (en) | 2014-08-29 | 2018-11-06 | Leica Geosystems Ag | Range data compression |
TWI693594B (zh) * | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
BR112018014799A2 (pt) | 2016-01-22 | 2018-12-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para estimativa de uma diferença de tempo entre canais |
CN105513601A (zh) * | 2016-01-27 | 2016-04-20 | 武汉大学 | 一种音频编码带宽扩展中频带复制的方法及装置 |
EP3288031A1 (en) | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US10084493B1 (en) * | 2017-07-06 | 2018-09-25 | Gogo Llc | Systems and methods for facilitating predictive noise mitigation |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
US11811686B2 (en) * | 2020-12-08 | 2023-11-07 | Mediatek Inc. | Packet reordering method of sound bar |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000045379A2 (en) * | 1999-01-27 | 2000-08-03 | Coding Technologies Sweden Ab | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting |
WO2000063887A1 (en) * | 1999-04-19 | 2000-10-26 | Motorola Inc. | Noise suppression using external voice activity detection |
US20080120116A1 (en) * | 2006-10-18 | 2008-05-22 | Markus Schnell | Encoding an Information Signal |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
RU2256293C2 (ru) * | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
RU2128396C1 (ru) * | 1997-07-25 | 1999-03-27 | Гриценко Владимир Васильевич | Способ передачи и приема информации и устройство для его осуществления |
ES2247741T3 (es) * | 1998-01-22 | 2006-03-01 | Deutsche Telekom Ag | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
JP3870193B2 (ja) * | 2001-11-29 | 2007-01-17 | コーディング テクノロジーズ アクチボラゲット | 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム |
AU2003278013A1 (en) * | 2002-10-11 | 2004-05-04 | Voiceage Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
JP2004350077A (ja) * | 2003-05-23 | 2004-12-09 | Matsushita Electric Ind Co Ltd | アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法 |
SE0301901L (sv) | 2003-06-26 | 2004-12-27 | Abb Research Ltd | Metod för att diagnostisera utrustningsstatus |
JP4767687B2 (ja) * | 2003-10-07 | 2011-09-07 | パナソニック株式会社 | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 |
KR101008022B1 (ko) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | 유성음 및 무성음 검출방법 및 장치 |
WO2005078707A1 (en) * | 2004-02-16 | 2005-08-25 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US8314694B2 (en) | 2004-06-28 | 2012-11-20 | Abb Research Ltd | System and method for suppressing redundant alarms |
DE602004020765D1 (de) * | 2004-09-17 | 2009-06-04 | Harman Becker Automotive Sys | Bandbreitenerweiterung von bandbegrenzten Tonsignalen |
US8036394B1 (en) * | 2005-02-28 | 2011-10-11 | Texas Instruments Incorporated | Audio bandwidth expansion |
KR100803205B1 (ko) * | 2005-07-15 | 2008-02-14 | 삼성전자주식회사 | 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
WO2007037361A1 (ja) * | 2005-09-30 | 2007-04-05 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
KR100647336B1 (ko) | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
WO2007093726A2 (fr) * | 2006-02-14 | 2007-08-23 | France Telecom | Dispositif de ponderation perceptuelle en codage/decodage audio |
EP1852849A1 (en) | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream |
US20070282803A1 (en) * | 2006-06-02 | 2007-12-06 | International Business Machines Corporation | Methods and systems for inventory policy generation using structured query language |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
JP2010503881A (ja) | 2006-09-13 | 2010-02-04 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声・音響送信器及び受信器のための方法及び装置 |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
US8639500B2 (en) | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
JP5103880B2 (ja) * | 2006-11-24 | 2012-12-19 | 富士通株式会社 | 復号化装置および復号化方法 |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
WO2008151408A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711 |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
WO2009081315A1 (en) | 2007-12-18 | 2009-07-02 | Koninklijke Philips Electronics N.V. | Encoding and decoding audio or speech |
ATE518224T1 (de) * | 2008-01-04 | 2011-08-15 | Dolby Int Ab | Audiokodierer und -dekodierer |
WO2009110738A2 (ko) * | 2008-03-03 | 2009-09-11 | 엘지전자(주) | 오디오 신호 처리 방법 및 장치 |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
-
2009
- 2009-06-23 MY MYPI2011000037A patent/MY155538A/en unknown
- 2009-06-23 MX MX2011000367A patent/MX2011000367A/es active IP Right Grant
- 2009-06-23 JP JP2011516988A patent/JP5551694B2/ja active Active
- 2009-06-23 WO PCT/EP2009/004521 patent/WO2010003544A1/en active Application Filing
- 2009-06-23 AU AU2009267532A patent/AU2009267532B2/en active Active
- 2009-06-23 AU AU2009267530A patent/AU2009267530A1/en not_active Abandoned
- 2009-06-23 ES ES09776809.7T patent/ES2539304T3/es active Active
- 2009-06-23 PL PL09776809T patent/PL2301027T3/pl unknown
- 2009-06-23 MX MX2011000361A patent/MX2011000361A/es active IP Right Grant
- 2009-06-23 KR KR1020117000542A patent/KR101395250B1/ko active IP Right Grant
- 2009-06-23 WO PCT/EP2009/004523 patent/WO2010003546A2/en active Application Filing
- 2009-06-23 PL PL09776811T patent/PL2301028T3/pl unknown
- 2009-06-23 CA CA2729971A patent/CA2729971C/en active Active
- 2009-06-23 EP EP09776811A patent/EP2301028B1/en active Active
- 2009-06-23 BR BRPI0910517-4A patent/BRPI0910517B1/pt active IP Right Grant
- 2009-06-23 RU RU2011103999/08A patent/RU2494477C2/ru active
- 2009-06-23 JP JP2011516986A patent/JP5628163B2/ja active Active
- 2009-06-23 ES ES09776811T patent/ES2398627T3/es active Active
- 2009-06-23 KR KR1020137018760A patent/KR101395257B1/ko active IP Right Grant
- 2009-06-23 EP EP09776809.7A patent/EP2301027B1/en active Active
- 2009-06-23 KR KR1020117000543A patent/KR101278546B1/ko active IP Right Grant
- 2009-06-23 BR BRPI0910523-9A patent/BRPI0910523B1/pt active IP Right Grant
- 2009-06-23 CN CN2009801271169A patent/CN102089817B/zh active Active
- 2009-06-23 CA CA2730200A patent/CA2730200C/en active Active
- 2009-06-23 MY MYPI2011000063A patent/MY153594A/en unknown
- 2009-06-23 KR KR1020137018759A patent/KR101395252B1/ko active IP Right Grant
- 2009-06-23 RU RU2011101617/08A patent/RU2487428C2/ru active
- 2009-06-23 KR KR1020137007019A patent/KR101345695B1/ko active IP Right Grant
- 2009-06-23 CN CN200980134905.5A patent/CN102144259B/zh active Active
- 2009-07-02 TW TW098122397A patent/TWI415114B/zh active
- 2009-07-02 TW TW098122396A patent/TWI415115B/zh active
- 2009-07-07 AR ARP090102546A patent/AR072480A1/es active IP Right Grant
- 2009-07-07 AR ARP090102548A patent/AR072552A1/es unknown
-
2010
- 2010-12-22 ZA ZA2010/09207A patent/ZA201009207B/en unknown
- 2010-12-23 IL IL210196A patent/IL210196A/en active IP Right Grant
- 2010-12-29 IL IL210330A patent/IL210330A0/en active IP Right Grant
-
2011
- 2011-01-04 ZA ZA2011/00086A patent/ZA201100086B/en unknown
- 2011-01-06 CO CO11001332A patent/CO6341676A2/es not_active Application Discontinuation
- 2011-01-11 US US13/004,255 patent/US8296159B2/en active Active
- 2011-01-11 US US13/004,264 patent/US8612214B2/en active Active
- 2011-01-27 CO CO11009136A patent/CO6341677A2/es not_active Application Discontinuation
- 2011-09-28 HK HK11110214.6A patent/HK1156140A1/xx unknown
- 2011-09-28 HK HK11110215.5A patent/HK1156141A1/zh unknown
-
2014
- 2014-08-27 AR ARP140103215A patent/AR097473A2/es active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000045379A2 (en) * | 1999-01-27 | 2000-08-03 | Coding Technologies Sweden Ab | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting |
WO2000063887A1 (en) * | 1999-04-19 | 2000-10-26 | Motorola Inc. | Noise suppression using external voice activity detection |
US20080120116A1 (en) * | 2006-10-18 | 2008-05-22 | Markus Schnell | Encoding an Information Signal |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI415115B (zh) | 用以產生帶寬擴展輸出資料之裝置與方法 | |
US9454974B2 (en) | Systems, methods, and apparatus for gain factor limiting | |
JP4934427B2 (ja) | 音声信号復号化装置及び音声信号符号化装置 | |
JP5325293B2 (ja) | 符号化されたオーディオ信号を復号化するための装置および方法 | |
RU2469422C2 (ru) | Способ и устройство для формирования уровня улучшения в системе кодирования звука | |
US7835904B2 (en) | Perceptual, scalable audio compression | |
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
JP4519784B2 (ja) | 情報源符号化システムの性能向上装置 | |
JP5224017B2 (ja) | オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム | |
JP5285162B2 (ja) | ピーク検出に基づいた選択型スケーリングマスク演算 | |
TW201131554A (en) | Multi-mode audio codec and celp coding adapted therefore | |
TWI785753B (zh) | 多聲道信號產生器、多聲道信號產生方法及電腦程式 | |
AU2013257391B2 (en) | An apparatus and a method for generating bandwidth extension output data | |
Kroon | Speech and Audio Compression |