TWI415114B - 用於計算頻譜包絡數目之裝置與方法 - Google Patents
用於計算頻譜包絡數目之裝置與方法 Download PDFInfo
- Publication number
- TWI415114B TWI415114B TW098122397A TW98122397A TWI415114B TW I415114 B TWI415114 B TW I415114B TW 098122397 A TW098122397 A TW 098122397A TW 98122397 A TW98122397 A TW 98122397A TW I415114 B TWI415114 B TW I415114B
- Authority
- TW
- Taiwan
- Prior art keywords
- time
- envelope
- boundary
- sbr
- pair
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims description 51
- 230000005236 sound signal Effects 0.000 claims abstract description 64
- 238000009826 distribution Methods 0.000 claims abstract description 33
- 230000001052 transient effect Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000011664 signaling Effects 0.000 claims 1
- 230000010076 replication Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectrometry And Color Measurement (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Control Of Amplification And Gain Control (AREA)
- Dental Tools And Instruments Or Auxiliary Dental Instruments (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本發明係有關於用於計算頻譜包絡數目之裝置與方法、音訊編碼器及用於編碼音訊信號之方法。
自然音訊(natural audio)編碼及語音(speech)編碼是編解碼器針對音訊信號的兩個主要任務。自然音訊編碼一般地以中等位元率用於音樂或任意信號且大體上提供寬音訊頻寬。另一方面,語音編碼器基本上限於語音再現,但可以以一極低的位元率使用。寬頻語音提供優於窄頻語音之一重要的主觀品質改進。增加頻寬不僅提高了語音的可懂度及自然度,而且還提高了對說話者的辨識。因此,寬頻語音編碼在下一代電話系統中是一重要的課題。而且,由於多媒體領域巨大的發展,透過電話系統以高品質傳輸音樂及其它非語音信號是一希望的特徵。
為了大大地減少位元率,可使用分頻感知音訊編解碼器來執行信號源編碼。這些自然音訊編解碼器利用信號中的感知無關及統計冗餘。此外,減少取樣率及從而減少該音訊頻寬是常見的。減少組成層次數目偶爾地允許音訊的量化失真及利用透過強度編碼之立體聲場之降級也是常見的。過多使用此類方法会導致惱人的感知降級。為了提高編碼性能,在一基於高頻重建(high frequency reconstruction,HFR)編解碼器中使用頻帶複製作為一有效的方法來產生高頻信號。
頻帶複製(spectral band replication,SBR)包含作為流行的感知音訊編碼器(諸如MP3及高級音訊編碼(AAC))的一附加物獲得普及之一技術。SBR包含頻寬擴展的一方法,其中使用習知編解碼器之狀態來編碼該頻譜的低頻帶(基頻带或核心頻帶),而上频带(或高頻带)使用幾個參數來粗略地參數化。SBR藉由使用該等擷取的高頻带特徵自該較低頻帶預測該較寬頻帶信號來利用在該低頻帶與該高頻帶間的一相關。這經常是足夠的,因為人類的耳朵相比較於該較低頻帶而言對該較高頻帶的失真較不敏感。因此,新的音訊編碼器使用例如MP3或AAC來編碼該較低頻譜而使用SBR來編碼該較高頻帶。該SBR演算法的關鍵是用來描述該信號之該較高頻率部分的資訊。此演算法的主要設計目的是在不引入任何人工失真(artifact)的情況下重建該較高頻頻譜並提供良好的頻譜及時間解析度。例如,在該分析部分及該編碼器使用一64頻帶複值多相濾波器組;使用該濾波器組來獲得例如該原始輸入信號的高頻帶之能量樣本。接著這些能量樣本可作為供在該解碼器使用的一包絡調整方案之參考值使用。
頻譜包絡在一般意義上指信號之一粗略頻譜分佈且包含,例如,一線性的基於預測的編碼器中之濾波器係數或一子頻帶編碼器中之子頻帶樣本之一組時頻(time-frequency)平均值。接著,包絡資料是指該已量化及編碼的頻譜包絡。特別地,如果該較低頻帶以一低位元率編碼,該包絡資料構成該位元流的一較大部分。因此,當特別是使用較低位元率時,簡潔地表示該頻譜包絡是重要的。
頻帶複製利用基於例如在編碼期間截斷的諧波序列之一複製之工具。此外,頻帶複製調整該所產生的高頻帶之頻譜包絡且應用反向濾波並加入雜訊及諧波成份以再生該原始信號之該等頻譜特性。因此,該SBR工具的輸入包含,例如,該已量化的包絡資料、雜項控制資料、來自該核心編碼器(例如AAC或MP3)之一時域信號。該SBR工具的輸出是一時域信號或例如一信號之一QMF域(QMF=正交鏡像濾波器)表示,當例如如果使用該MPEG環繞工具時。可在該標準ISO/IEC 14496-3:2005副條款4.5.2.8中找到針對該SBR酬載的該等位元流元素之描述,且其中包含SBR擴展資料、一SBR標頭並指示在一SBR訊框中之SBR包絡數目。
對於一SBR在該編碼器端的實施,在該輸入信號上執行一分析。使用自此分析所獲得的資訊來選擇該目前SBR訊框之適當的時間/頻率解析度。該演算法計算在該目前SBR訊框中之該等SBR包絡的開始及停止時間邊界、SBR包絡數目及它們的頻率解析度。不同的頻率解析度如例如在該ISO/IEC 144963標準、副條款4.6.18.3中所描述的來計算。該演算法還針對該給定SBR訊框計算雜訊層(noise floor)的數目及該等雜訊層之開始及停止時間邊界。該等雜訊層之開始及停止時間邊界應為該等頻譜包絡之開始及停止時間邊界的一子集。該演算法將該目前的SBR訊框分成四類:FIXFIX-該前導(leading)及尾部(trailing)時間邊界都等於標稱的SBR訊框邊界。在該訊框中所有的SBR包絡時間邊界在時間上一致地分佈。包絡的數目是二的整數次冪(1,2,4,8,...)。
FIXVAR-該前導時間邊界等於該前導標稱訊框邊界。該尾部時間邊界是可變的且可由位元流元素來定義。在該前導及該尾部時間邊界間之所有的SBR包絡時間邊界可以被指定為以時間槽而計之自該尾部時間邊界開始至前一邊界之相對距離。
VARFIX-該前導時間邊界是可變的且由位元流元素來定義。該尾部時間邊界等於該尾部標稱訊框邊界。在該前導及該尾部時間邊界間之所有的SBR包絡時間邊界在位元流中被指定為以時間槽而計之自該前導時間邊界開始至前一邊界之相對距離。
VARVAR-該前導及尾部時間邊界都是可變的且可在位元流中定義。在該前導及尾部時間邊界間之所有的SBR包絡時間邊界也被指定。自該前導時間邊界開始的該等相對時間邊界被指定為到前一時間邊界的相對距離。自該尾部時間邊界開始的該等相對時間邊界被指定為到前一時間邊界之相對距離。
在SBR訊框類別轉換上沒有限制,即,在該標準中允許類別的任一序列。然而,依據此標準,對於類別FIXFIX,每個該SBR訊框的SBR包絡之最大數目限制為4及對於類別VARVAR每個該SBR訊框的SBR包絡之最大數目為5。類別FIXVAR及VARFIX在語法上限制為四個SBR包絡。
在該時間區段上及以由該時間/頻率方格給定之該頻率解析度來估計該SBR訊框之該等頻譜包絡。藉由在該等給定的時間/頻率區域上計算該等平方的複數子頻帶樣本之平均值來估計該SBR包絡。
一般地,在SBR中,透過使用可變長度的特定包絡,暫態(transient)接受一特定處理。暫態可由習知信號中在一短時間段內出現能量強勁增加的部分來定義,這可以或可以不限制在一特定頻率區域。針對暫態的例子是響板及打擊樂器的擊打,而且還有人類發音的某些聲音,例如字母:P、T、K...。目前始終以同一方式或由同一演算法(使用一暫態臨限)來實施對此種暫態之檢測,而與該信號無關,不論該信號是否被分類為語音或分類為音樂。另外,有聲與無聲的語音間之一可能的區別不影響習知的或傳統的暫態檢測機制。
因而,如果檢測到一暫態,應該調整該SBR資料以使得一解碼器可適當地複製該受檢測的暫態。在WO 01/26095中,揭露了用於頻譜包絡編碼之一裝置及一方法,其考慮了該音訊信號中之一受檢測的暫態。在此習知方法中,藉由將來自一固定大小的濾波器組之子頻帶樣本分組成為每個產生一包絡樣本之頻帶與時間區段來獲得該頻譜包絡之一非一致的時間與頻率取樣。該相對應的系統預設為長時間區段及高頻率解析度,但在一暫態附近使用較短時間區段,藉此可使用較大頻率步階以保持該資料大小在限額內。如果檢測到一暫態,該系統自一FIXFIX框切換到一FIXVAR框,隨之一VARFIX框,以使得一包絡邊界正好定位在該受檢測暫態前。每當檢測到一暫態時重複此步驟。
如果只是緩慢的能量波動變化,該暫態檢測器將不檢測該變化。然而,如果處理不當,這些變化可能足以產生可感知的人工失真。一簡單的解決方案可能是降低該暫態檢測器中的該臨限。然而,這將導致在不同訊框間(FIXFIX至FIXVAR+VARFIX)的一頻繁切換。結果,必須傳輸大量的額外資料,暗示一不佳的編碼效率,特別是如果該緩慢增長持續超過較長時間(例如,超過多個訊框)的話。這是不可接受的,因為該信號不包含可證明一較高資料率是正當之複雜性,因而這不是解決該問題的一選擇。
因此,本發明之一目的是提供一裝置,該裝置允許一不具有可感知的人工失真之有效的編碼,特別是對包含一緩慢變化的能量之信號,該緩慢變化的能量太低而不能被該暫態檢測器所檢測。
該目的由如申請專利範圍第1項所述之裝置、如申請專利範圍第11項所述之編碼器、如申請專利範圍第13項所述之用於計算頻譜包絡數目之方法或如申請專利範圍第14項所述之用於產生一資料流之方法來實現。
本發明基於如下發現即:可藉由依據一給定信號以一靈活的方式調整在一SBR訊框內的頻譜包絡數目來提高一傳輸音訊信號之可感知品質。這藉由比較在該SBR訊框內的相鄰時間部分之該音訊信號來實施。
該比較藉由決定該音訊信號在該等時間部分內之能量分佈來實施,及一決策值量測兩相鄰時間部分的該等能量分佈之一偏差。視該決策值是否違規了一臨限而定,一包絡邊界位於該等相鄰時間部分之間。該包絡之另一邊界可在該SBR訊框之開頭或末尾或者,可取捨地,也可在該SBR訊框内之另兩個相鄰的時間部分之間。
因此,該SBR訊框不像例如在一習知的裝置中那樣被改作或改變,在習知的裝置中,執行自一FIXFIX框到一FIXVAR框或到一VARFIX框之一改變以處理暫態。取而代之的是,實施例使用一變化包絡數目(例如,在FIXFIX框內)以考慮到該音訊信號之變化的波動使得即使是緩慢變化的信號也可產生一變化的包絡數目,於是允許由在一解碼器中之該SBR工具產生一較好的音訊品質。該已決定的包絡可例如涵蓋在該SBR訊框中之相等時間長度的部分。例如,該SBR訊框可被劃分成一預定數目之時間部分(例如該預定數目可包含4、8或2的其它整數次冪)。
每個時間部分之該頻譜能量分佈可以只涵蓋藉由SBR複製的上頻帶。另一方面,該頻譜能量分佈也可與整個頻帶(上頻帶或下頻帶)有關,其中該上頻帶可以或可以不以大於該下頻帶之權重來加權。透過此程序,該臨限值之已有的一違規可能足以增加包絡數目或足以使用該SBR訊框內之最大包絡數目。
進一步的實施例還可包含一信號分類器工具,該信號分類器工具分析該原始輸入信號並由此產生控制資訊,該控制資訊觸發不同編碼模式的選擇。該等不同的編碼模式可例如包含一語音編碼器及一一般音訊編碼器。該輸入信號之該分析是實施態樣相依的,其目標是針對一給定輸入信號框選擇最佳核心編碼模式。當只使用低位元率來編碼時該最佳與一可感知高品質之一平衡相關。到該信號分類器工具之該輸入可以是該原始未修改的輸入信號及/或額外的實施態樣相依的參數。該信號分類器之該輸出例如可以是一控制信號以控制該核心編解碼器之該選擇。
例如,如果該信號被識別或分類為語音,該頻寬擴展(BWE)之類時解析度可增加(例如較多包絡)以使得可較好的考慮一類時能量波動(緩慢地或強勁地波動)。
此方法考慮到具有不同時間/頻率特性之不同的信號在關於該頻寬擴展的特性上具有不同的要求。例如,暫態信號(例如出現在語音信號中)需要該BWE之一精細的時間解析度,該交越頻率(意思是該核心編碼器之該上頻率邊界)應該儘可能的高。特別是在有聲語音中,一失真的時間結構可降低感知的品質。另一方面,聲調信號經常需要頻譜成份之一穩定的再生及該再生高頻部分之一匹配諧波圖案(pattern)。聲調部分的該穩定再生限制了該核心編碼器頻寬,其不需要具有精細的時間解析度之一BWE,而是具有一較精細的頻譜解析度之一BWE。在一切換語音/音訊核心編碼器設計中,還可能使用該核心編碼器決策來適節該BWE之該時間及頻譜特性以及適節該核心編碼器頻寬以適於該等信號特性。
如果所有的包絡包含相同的時間長度,視該所檢測到的違規(在哪一時間)而定,包絡數目可因訊框不同而不同。實施例例如以如下方式針對一SBR訊框決定包絡數目。可能以具有一最大可能包絡數目(例如8)之一分區開始並逐步減少包絡數目,藉此視該輸入信號而定使用不多於使該信號能夠以一可感知高品質再生所需之包絡。
例如,已經在該訊框內之時間部分之該第一邊界被檢測到之一違規可產生一最大的包絡數目,而只在該第二邊界被檢測到之一違規可產生最大包絡數目的一半。為了減少要被傳輸的該資料,在進一步的實施例中,該臨限值可視該時間瞬時而定(即,視目前所分析是哪一邊界而定)。例如,在該第一及第二時間部分之間(第一邊界)及在該第三及第四時間部分之間(第三邊界),該臨限在這兩種情況下可比在該第二及第三時間部分之間(第二邊界)時較大。因此,統計上,在該第二邊界比在該第一或第三邊界將存在較多的違規,因而更可能產生較少的包絡,這將是較佳的(更多細節見下文)。
在進一步的實施例中,預定數目之後續時間部分之一時間部分之時間長度等於一最小時間長度,針對該最小時間長度決定一單一包絡,及其中該決策值計算器適於針對具有該最小時間長度之兩相鄰的時間部分計算一決策值。
更進一步的實施例包含用來提供額外旁側資訊之一資訊處理器,該額外旁側資訊包含該音訊信號之該時間序列內之該第一包絡邊界及該第二包絡邊界。在進一步的實施例中該檢測器適於以一時間順序研究相鄰時間部分間之該等邊界中的每個邊界。
實施例還在一編碼器中使用用於計算包絡數目之該裝置。該編碼器包含用於計算該頻譜包絡數目之該裝置及用於使用此數目來計算針對一SBR訊框之該頻譜包絡資料之一包絡計算器。實施例還包含用於計算包絡數目之一方法及用於編碼一音訊信號之一方法。
因而,使用在FIXFIX框內之包絡是為了較好地模型化因太緩慢以致未被檢測為暫態或被分類為暫態而未受該等暫態處理涵蓋之能量波動。在另一方面,如果該等能量波動由於不足的類時解析度而沒有得到適當的處理,它們足夠快導致人工失真。因而,依據本發明該包絡處理將考慮到緩慢變化的能量波動而不僅是暫態之特徵的該強勁或快速的能量波動。因此,本發明之實施例允許呈一較佳品質之一較高效的編碼,特別地對於具有一緩慢變化能量的信號,其波動強度太低而不能被該習知的暫態檢測器檢測到。
本發明現在將透過所說明的例子來予以描述。透過參考下面詳細的應參考該等附圖考慮之描述將較容易瞭解及較好的理解本發明之特徵,其中:第1圖顯示依據本發明之一實施例之用於計算頻譜包絡數目之一裝置之一方塊圖;第2圖顯示包含一包絡數目計算器之一SBR模組之一方塊圖;第3a及3b圖顯示包含一包絡數目計算器之一編碼器之方塊圖;第4圖說明在預定數目之時間部分中之一SBR訊框之分區;第5a至5c圖顯示針對包含三個涵蓋不同數目之時間部分之包絡之一SBR訊框之進一步的分區;第6a及6b圖說明針對在相鄰時間部分中的信號之該頻譜能量分佈;及第7a至7c圖顯示包含對於一音訊信號產生不同時間解析度之一可取捨的音訊/語音切換之一編碼器。
下面描述的實施例只是用來說明用於改良例如在一音訊編碼器中所使用之該頻帶複製之本發明的原理。要明白的是本文所描述的該等安排及該等細節之修改及變化對熟於此技者而言將是明顯的。因而,意圖是不受作為本文的該等實施例之描述及說明所呈現之該等特定細節所限制。
第1圖顯示用於計算頻譜包絡104之數目102之一裝置100。該等頻譜包絡104藉由一頻帶複製編碼器來導出,其中該編碼器適於使用在自一初始時間t0延伸至一最後時間tn之一頻帶複製訊框(SBR訊框)中之預定數目之後續時間部分110内之多個樣本值來編碼一音訊信號105。該預定數目之後續時間部分110按該音訊信號105給定的一時間序列排列。
該裝置100包含用來決定一決策值125之一決策值計算器120,其中該決策值125量測一對相鄰時間部分在頻譜能量分佈上的一偏差。該裝置100進一步包含用來藉由該決策值125檢測一臨限的一違規135之一違規檢測器130。此外,該裝置100包含一處理器140(第一邊界決定處理器),該處理器140用於當檢測到對該臨限的一違規135時決定在該對相鄰時間部分間之一第一包絡邊界145。該裝置100還包含一處理器150(第二邊界決定處理器),該處理器150對於具有該第一包絡邊界145之一包絡104,根據針對其它對的該臨限之一違規135或根據在該SBR訊框中的該對或其它對之一時間位置,來決定在一不同對相鄰時間部分間或在該初始時間t0或在最後時間tn之一第二包絡邊界155。最後,該裝置100包含一處理器160(包絡數目處理器),該處理器160用來確立具有該第一包絡邊界145及該第二包絡邊界155之頻譜包絡104的數目102。
進一步的實施例包含一裝置100,其中預定數目之後續時間部分110之一時間部分之時間長度等於一最小時間長度,針對該最小時間長度決定一單一包絡104。此外,該決策值計算器120適於針對具有該最小時間長度之兩相鄰時間部分計算一決策值125。
第2圖顯示針對包含該包絡數目計算器100(在第1圖中顯示)之一SBR工具之一實施例,該實施例藉由處理該音訊信號105來決定頻譜包絡104之數目102。該數目102被輸入到計算來自該音訊信號105之該包絡資料205之一包絡計算器210。使用數目102,該包絡計算器210將把該SBR訊框劃分成由一頻譜包絡104涵蓋的部分,且對於每個頻譜包絡104,該包絡計算器210計算該包絡資料205。該包絡資料包含例如該已量化及編碼的頻譜包絡,且在該解碼器端需要此資料來產生該高頻帶信號及應用反向濾波、加入雜訊及諧波成份以複製該原始信號之該等頻譜特性。
第3a圖顯示針對一編碼器300之一實施例,該編碼器300包含SBR相關模組310、一分析QMF組320、一降取樣器330、一AAC核心編碼器340及一位元流酬載格式器350。另外,該編碼器300包含該包絡資料計算器210。該編碼器300包含針對PCM樣本(音訊信號105;PCM=脈衝碼調變)的一輸入,該輸入連接到該分析QMF組320,且連接到該等SBR相關模組310且連接到該降取樣器330。接著,該分析QMF組320連接到該包絡資料計算器210,接著該包絡資料計算器210連接到該位元流酬載格式器350。該降取樣器330連接到該AAC核心編碼器340,接著,該AAC核心編碼器340連接到該位元流酬載格式器350。最後,該等SBR相關模組310連接到該包絡資料計算器210且連接到該AAC核心編碼器340。
因此,該編碼器300(在該降取樣器取樣器330中)對該音訊信號105降取樣以產生在該核心頻帶中的成份,該等成份被輸入到該AAC核心編碼器340中,該AAC核心編碼器340編碼在該核心頻帶中的該音訊信號並轉送該已編碼信號給該位元流酬載格式器350,其中將該核心頻帶之該已編碼的音訊信號加入到編碼音訊流355中。在另一方面,由該分析QMF組320來分析該音訊信號105,該分析QMF組320擷取該高頻帶之頻率成份並將這些信號輸入到該包絡資料計算器210中。例如,一個64子頻帶QMF組320執行該輸入信號之該子頻帶濾波。來自該濾波器組的輸出(即該等子頻帶樣本)是複值的,及因此,以一因子2之過取樣相比於一規則QMF組。
該等SBR相關模組310藉由將例如包絡104的數目102提供給該包絡資料計算器210來控制該包絡資料計算器210。該包絡資料計算器210使用數目102及由該分析QMF組320所產生的該等音訊成份來計算該包絡資料205並將該包絡資料205轉送到該位元流酬載格式器350,該位元流酬載格式器350將該包絡資料205與由該核心編碼器340編碼之該等成份組合到該編碼音訊流355中。
因而第3a圖顯示估計由該高頻重建方法在該解碼器上所使用的幾個參數之該SBR工具之該編碼器部分。
第3b圖顯示針對SBR相關模組310之一實施例,其包含該包絡數目計算器100(在第1圖中顯示)及可取捨地其它SBR模組360。該等SBR相關模組310接收該音訊信號105並輸出包絡104的數目102及由該等其它SBR模組360所產生的其它資料。
該等其它SBR模組360例如可包含一習知的暫態檢測器,該暫態檢測器適於檢測在該音訊信號105中的暫態且還可獲得該等包絡之數目及/或位置以使該等SBR模組可以或可以不計算由該高頻重建方法在該解碼器上所使用的該等參數中的一部分參數(SBR參數)。
如前所述,在SBR中,一SBR時間單元(一SBR訊框)可被分成各種資料塊,所謂的包絡。如果此劃分或分區是一致的,即所有的包絡104具有相同的大小且該第一包絡以一訊框邊界開始及該最後包絡以一訊框邊界結束,該SBR訊框被定義為該FIXFIX框。
第4圖說明這樣的針對一SBR訊框之以一數目102個頻譜包絡104之一分區。該SBR訊框涵蓋在該初始時間t0與一最後時間tn間的一時間段,及在第4圖所示的該實施例中,該SBR訊框被劃分為8個時間部分:一第一時間部分111、一第二時間部分112、...、一第七時間部分117及一第八時間部分118。這8個時間部分110由7個邊界分開,這就是說一邊界1介於該第一及第二時間部分111、112之間,一邊界2位於該第二部分112與一第三部分113之間,如此繼續直到一邊界7介於該第七部分117與該第八部分118之間。
在標準的ISO/IEC 14496-3中,在一FIXFIX框中之包絡104之最大數目被限制為四(見段落4.6.18.3.6,子部分4)。一般地,在該FIXFIX框中之包絡104之數目可以是二的冪次(例如,1、2、4),其中如果在同一訊框中沒有檢測到暫態時只使用FIXFIX 框。另一方面,在習知的高效AAC編碼器實施態樣中,包絡104之該最大數目被限制為二,即使標準之說明理論上允許多達四個包絡。每訊框之此包絡104數目可增加到例如八(見第4圖),以使一FIXFIX框可包含1、2、4或8個包絡(或2的另一冪次)。當然,包絡104之任一其它數目102也是可能的,以使包絡104之該最大數目(預定數目)可以只受每SBR訊框具有32個QMF時間槽之該QMF濾波器組之該時間解析度來限制。
包絡104之數目102例如可如下計算。該決策值計算器120量測在成對的相鄰時間部分110之該等頻譜能量分佈中的偏差。例如,這就是說該決策值計算器120針對該第一時間部分111計算一第一頻譜能量分佈,根據在該第二時間部分112中的該頻譜資料來計算一第二頻譜能量分佈等。然後,將該第一頻譜能量分佈與該第二頻譜能量分佈相比較,並根據此比較導出該決策值125,其中在此例子中該決策值125與在該第一時間部分111及該第二時間部分112間的該邊界1有關。相同的程序可應用到該第二時間部分112及該第三時間部分113,以使針對這兩相鄰時間部分也導出兩頻譜能量分佈,及接著這兩頻譜能量分佈由該決策值計算器120比較以導出一進一步的決策值125。
下一步,該檢測器130將把該導出的決策值125與一臨限值比較,及如果該臨限值被違規了,該檢測器130將檢測到一違規135。如果該檢測器130檢測到一違規135,該處理器140決定一第一包絡邊界145。例如,如果該檢測器130在該第一時間部分111與該第二時間部分112間的該邊界1檢測到一違規,則該第一包絡邊界145a定位在該邊界1之時間處。
在只有幾種可能性對於區組(granule)/邊界而言是被允許的該第4圖之實施例中,這就是說完成了整個過程,且如由在104a、104b指示的該等小包絡指示的那樣來設定所有的邊界。在此情況下,邊界將在所有的時間0、1、2、...、n上。
然而,當要將該第一邊界設定在例如時間瞬時4上時,則必須完成針對該第二邊界的搜尋。如在第4圖所指示,該第二邊界可以在3、2、0。如果該邊界在3,則完成整個程序,因為設定了該等最小的包絡104a、104b。如果該邊界在2,則必須繼續該搜尋,因為還沒有確認可以使用該等中等包絡(如145a所示)。即使如果該邊界在0,還沒有決定的是在後半部中(即4與n之間)不存在一邊界。如果在後半部中不存在一邊界,則可設定該等最寬廣的包絡。如果存在一邊界,例如在5,則必須使用該等最小的包絡。如果只在6存在一邊界,則使用該等中等包絡。
然而,當允許針對該等包絡之一完全靈活或一較靈活的模式時,當已決定一第一邊界在1時該程序繼續。接著,該處理器150決定一第二包絡邊界155,該第二包絡邊界155在另一對相鄰時間部分之間或與該初始的時間t0或該最後的時間tn一致。在第4圖所示的該等實施例中,該第二包絡邊界155a與該初始時間t0一致(產生一第一包絡104a)及另一第二包絡邊界155b與在該第二時間部分112及該第三時間部分113間之該邊界2一致(產生一第二包絡104b)。如果在該第一時間部分111與該第二時間部分112間之該邊界1未檢測到的違規,則該檢測器130將繼續研究在該第二時間部分112與該第三時間部分113間之該邊界2。如果存在一違規,則另一包絡104c自該開始時間t0延伸至該邊界2。
依據本發明之實施例,對於一對相鄰包絡而言,該決策值125量測該等頻譜能量分佈之偏差,其中每個頻譜能量分佈涉及該音訊信號在一時間部分內的一部分。在8個包絡的該例子中,存在總數為7個的量值(=在相鄰時間部分間的7個邊界)或,一般地,如果存在n個包絡,則存在n-1個量值(決策值125)。接著這些決策值125中的每一個可與一臨限比較,且如果該決策值125(量值)違規該臨限,則一包絡邊界將被定位在該兩相鄰的包絡之間。視該決策值125及該臨限的定義而定,該違規可以是一決策值125大於或小於該臨限。如果該決策值小於該臨限,則該頻譜分佈可能不會隨著包絡到包絡強烈改變。因此,在此位置可不需要包絡邊界(=時間瞬時)。
在一較佳實施例中,包絡104之數目102包含二的冪次,且此外,每個包絡包含一相等的時間段。這就是說存在四種可能性:一第一可能性是整個SBR訊框被一單一包絡涵蓋(在第4圖中未示),該第二可能性是該SBR訊框被2個包絡涵蓋,該第三可能性是該SBR訊框被4個包絡涵蓋及最後可能性是該SBR訊框被8個包絡涵蓋(在第4圖中自下而上顯示)。
以一特定順序研究該等邊界可能是有利的,因為如果在一奇數邊界(邊界1、邊界3、邊界5、邊界7)存在一違規,則包絡的數目將始終為八(假設是相同大小的包絡)。另一方面,如果在邊界2及邊界6存在一違規則存在四個包絡,及最後,如果只在邊界4存在一包絡則將編碼兩包絡,及如果在該等7個邊界中的任一個都不存在違規,則整個SBR訊框被一單一包絡所涵蓋。因此,該裝置100可首先研究該邊界1、3、5、7且如果在這些邊界之一處檢測到一違規,則該裝置100可研究下一SBR訊框,因為在此情況下,整個SBR訊框將以最大包絡數目來編碼。在研究這些奇數邊界後且如果在該等奇數邊界沒有檢測到違規,則作為下一步該檢測器130可研究該邊界2及邊界6,藉此,如果在這兩邊界之一中檢測到了一違規,則包絡數目將為四且該裝置100可再一次轉往下一SBR訊框。作為最後一步,如果就該等邊界1、2、3、5、6、7而言沒有檢測到違規,則該檢測器130可研究該邊界4及如果在邊界4檢測到了一違規,則包絡數目被定為二。
對於一般情況(n個時間部分,其中n是一偶數),此程序也可再敘述如下。如果例如在該等奇數邊界沒有檢測到違規且因此該決策值125可小於該臨限,意思是(由那些邊界分開的)該等相鄰包絡就該頻譜能量分佈而言包含不大的差異,不需要將該SBR訊框劃分成n個包絡,且代之者,劃分成n/2個包絡可能足夠了。另外,如果該檢測器130在是奇數兩倍(例如在邊界2、6、10、...)的邊界處沒有檢測到違規,也不需要將一包絡邊界放在這些位置及,因此,包絡之數目可進一步減少一半,即減少到n/4。此程序逐步繼續(下一步將是一奇數4倍之邊界,即4、12、...)。如果在所有的這些邊界沒有檢測到違規,則一單一包絡對於整個SBR訊框是足夠的。
然而,如果在該等奇數邊界的該等決策值當中的一個決策值大於該臨限,則應該考慮n個包絡,因為只有在這時一包絡邊界將被定位在該相對應的位置(由於假定所有的包絡具有相同的長度)。在此情況下,將計算n個包絡,即便所有其它的決策值125小於該臨限。
然而,該檢測器130也可針對所有時間部分110考慮所有的邊界且考慮所有的決策值125以計算包絡104之數目。
由於包絡數目102的增加還意味著要被傳輸之資料量增加,所以可增加牽涉多數目個包絡104之該相對應包絡邊界之該決策臨限。這就是說在邊界1、3、5及7的該臨限值可取捨地可高於在邊界2及6的該臨限值,接著,在邊界2及6的該臨限值可高於在該邊界4的該臨限值。較低或較高臨限值這裡指該臨限值之一違規較可能或較不可能。例如一較高臨限值意味著在兩相鄰時間部分間的該頻譜能量分佈的該偏差可比一較低臨限值情況下較可容忍,因此對於一高臨限值而言,需要該頻譜能量分佈之較嚴重的偏差來要求進一步的包絡。
該已選擇的臨限值還可能視該信號(關於該信號是否被分類為一語音信號或一一般音訊信號)而定。然而,如果該信號被分類為語音,則並不是一直減少(或增加)該決策臨限值。然而,視應用而定,如果對於一一般音訊信號該臨限值高,則這可能是有利的,以使在此情況下包絡之數目一般地小於針對一語音信號時的包絡之數目。
第5圖說明進一步的實施例,其中該等包絡之長度在該SBR訊框內變化。在第5a圖中,顯示了具有三個包絡104之一例子,一第一包絡104a、一第二包絡104b及一第三包絡104c。該第一包絡104a自該初始時間t0延伸到在時間t2的該邊界2,該第二包絡104b自在時間t2的該邊界2延伸到在時間t5的該邊界5及該第三包絡104c自在時間t5的邊界5延伸到該最後時間tn。如果所有的時間部分又是相同的長度及如果該SBR訊框又是被劃分成八個時間部分,則該第一包絡104a涵蓋該第一及第二時間部分111、112,該第二包絡104b涵蓋該第三時間部分113、第四時間部分114及第該第五時間部分115,及該第三包絡104c涵蓋該第六、該第七及該第八時間部分。因而,該第一包絡104a小於該第二及該第三包絡104b及104c。
第5b圖顯示只具有兩個包絡之另一實施例,一第一包絡104a自該初始時間t0延伸到該第一時間t1及一第二包絡104b自該第一時間t1延伸到該最後時間tn。因此,該第二包絡104b延伸越過7時間部分,而該第一包絡104a只延伸越過一單一時間部分(該第一時間部分111)。
第5c圖顯示的又是具有三個包絡104的一實施例,其中該第一包絡104a自該初始時間t0延伸到該第二時間t2,該第二包絡104b自該第二時間t2延伸到該第四時間t4及該第三包絡104c自該第四時間t4延伸到該最後時間tn。
這些實施例例如可被用在這種情況下:包絡104之邊界只放在其間檢測到該臨限值之一違規之相鄰時間部分之間或放在該初始t0及最後時間tn。這就是說在第5a圖中,在時間t2檢測到了一違規及在時間t5檢測到了一違規,而在剩餘的時間瞬時t1、t3、t4、t6及t7沒有檢測到違規。類似地,在第5b圖中,只在時間t1檢測到一違規,導致針對該第一包絡104a及針對該第二包絡104b的一邊界,及在第5c圖,只在該第二時間t2及該第四時間t4檢測到違規。
為了一解碼器能夠使用該包絡資料及能夠相應地複製該頻譜較高頻帶,該解碼器需要該等包絡104及該等相對應的包絡邊界之位置。在先前所示的依賴該標準之實施例中,其中所有的包絡104包含相同的長度並,因此,傳輸包絡之數目足以使該解碼器可決定一包絡邊界必須在哪里。然而,在第5圖所示的這些實施例中,該解碼器需要一包絡邊界位於哪一時間之資訊,及因此可將額外的旁側資訊(side information)放入該資料流中以便於使用該旁側資訊,該解碼器可保留一邊界所處及一包絡開始及結束之該等時間瞬時。此額外的資訊包含該時間t2及t5(在第5a圖的情況中)、該時間t1(在第5b圖的情況中)及該時間t2與t4(在第5c圖的情況中)。
第6a及6b圖透過使用在該音訊信號105中之該頻譜能量分佈來顯示針對該決策值計算器120之一實施例。
第6a圖顯示針對在一給定時間部分(例如,該第一時間部分111)中之該音訊信號之一第一組樣本值610並將此取樣的音訊信號與在該第二時間部分112中的該音訊信號之一第二組樣本620相比較。該音訊信號被轉換到頻域以使該等組樣本值610、620或他們的位準P顯示為頻率f的函數。該等較低及較高頻帶由該f0分開,意味著對於比f0較高的頻率將不傳輸樣本值。該解碼器應藉由使用該SBR資料來複製這些樣本值代之。另一方面,例如由該AAC編碼器來編碼小於該交越頻率f0的該等樣本並傳輸到該解碼器。
該解碼器可使用來自該低頻帶的這些樣本值以複製該等高頻成份。因此,為了找到針對在該第一時間部分111中的該第一組樣本610與在該第二時間部分112中的該第二組樣本620之偏差的一量值,只考慮在該高頻帶(對於f>f0)中的該等樣本值可能不夠,還要考慮在該低頻帶中的頻率成份。一般地,如果在該高頻中的頻率成份與在該低頻帶中的頻率成份間存在一相關,則將期望一良好品質的複製。在一第一步中,只考慮在該高頻帶(大於交越頻率f0)中的樣本值並計算在該第一組樣本值610與該第二組樣本值620間的一相關是足夠的。
該相關可藉由使用標準的統計方法來計算且可包含例如所謂的交互相關函數的計算或用於兩信號之相似性之其它統計量測。還有可用來估計兩信號之一相關之皮爾遜積差相關係數(Pearson’s product moment correlation coefficient)。該等皮爾遜係數也稱為一樣本相關係數。一般地,一相關指示兩隨機變數(本實例中為兩樣本分佈610與620)之間的一線性關係之強度與方向。因此,該相關指兩隨機變數之無關性之偏離。在此廣泛意義上,存在多個量測相關度之係數適於資料本質,以便於針對不同的情況使用不同的係數。
第6b圖顯示一第三組樣本值630及一第四組樣本值640,它們可例如與在該第三時間部分113及該第四時間部分114中的該等樣本值有關。再一次,為了比較這兩組樣本(或信號),考慮兩相鄰時間部分。相比於在第6a圖中所顯示的情況,在第6b圖中,引進一臨限值T以便只考慮位準P大於(或較一般的違規)該臨限值T之樣本值(P>T成立之樣本值)。
在此實施例中,可只藉由計數違規此臨限值T的樣本值之數目來量測頻譜能量分佈的偏差且該結果可確定該決策值125。此簡單的方法將產生兩信號之間的一相關而不執行該等不同時間部分110中的該等不同組樣本值之一詳細的統計分析。另外,例如如上所述之一統計的分析可僅應用到違規該臨限值T的該等樣本上。
第7a至7c圖顯示一進一步的實施例,其中該編碼器300包含一切換決策單元370及一立體聲編碼單元380。此外,該編碼器300還包含該等頻寬擴展工具,例如該包絡資料計算器210及該等SBR相關模組310。該切換決策單元370提供在一音訊編碼器372與一語音編碼器373之間切換的一切換決策信號371。這些編碼中的每一編碼可使用不同數目個樣本值(例如對於一較高解析度使用1024個樣本值或對於一較低解析度使用256個樣本值)來編碼在該核心頻帶中的該音訊信號。還可將該切換決策信號371供應給該頻寬擴展(BWE)工具210、310。接著,該BWE工具210、310將使用該切換決策信號371來例如調整用於決定該等頻譜包絡104之數目102之該等臨限值且用以開啟/關閉一可取捨的暫態檢測器。將該音訊信號105輸入到該切換決策單元370並輸入到該立體聲編碼單元380以使該立體聲編碼單元380可產生輸入到該頻帶擴展單元210、310中之該等樣本值。視由該切換決策單元370所產生的該決策信號371而定,該頻寬擴展工具210、310將產生接著被轉送到一音訊編碼器372或一語音編碼器373之頻帶複製資料。
該切換決策信號371是信號相依的且可由該切換決策單元370藉由分析該音訊信號(例如透過使用一暫態檢測器或可包含或不包含一可變臨限值之其它檢測器)來獲得。另外,還可手動地調整該切換決策信號371或自一資料流(包括在該音訊信號中)獲得該切換決策信號371。
該音訊編碼器372及該語音編碼器373之輸出又可被輸入到該位元流格式器350(見第3a圖)中。
第7b圖顯示針對該切換決策信號371之一例子,其在小於一第一時間ta及大於一第二時間tb之時間段期間檢測到一音訊信號。在該第一時間ta與該第二時間tb間,該切換決策單元370檢測到一語音信號針對該切換決策信號371暗示不同的離散值之。
因此,如第7c圖所示,在該時間期間檢測到該音訊信號,這就是說在ta之前的時間,該編碼的該時間解析度是低的,而在檢測到一語音信號的該時段期間(在該第一時間ta與該第二時間tb之間),該時間解析度增加。該時間解析度增加意味著時域內一較短的分析窗。該增加的時間解析度還意味著前述增加數目之頻譜包絡(見對第4圖之描述)。
對於需要精確時間表示高頻率之語音信號,由該切換決策單元370來控制用來傳輸較多數目個參數集之該決策臨限值(例如在第4圖使用)。對於以該切換核心編碼器之該語音或時域編碼部分373編碼之語音及類似語音的信號,要使用較多參數集之該決策臨限值例如可被減小,從而增加了該時間解析度。然而,情況並不總是如上面提到的這樣。類時(time-like)解析度按該信號的改作與該基本編碼器結構(在第4圖未用)無關。這就是說,所描述的方法在其內該SBR模組只包含一單一核心編碼器之一系統中也可用。
儘管在以一裝置為脈絡的情況下已描述了一些層面,但是清楚的是這些層面也表示相對應方法的一描述,其中一方塊或裝置對應於一方法步驟或一方法步驟之一特徵。類似地,在以一方法步驟為脈絡的情況下描述的層面也表示一相對應方塊或一相對應裝置之項目或特徵之一描述。
可將本發明編碼音訊信號儲存在一數位儲存媒體上或在諸如一無線傳輸媒體或一有線傳輸媒體(如網際網路)之一傳輸媒體上傳輸。
視某些實施需求而定,本發明之實施例可在硬體或在軟體中實施。該實施可透過使用具有電子可讀取控制信號儲存於其上之一數位儲存媒體(例如一軟碟、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快閃記憶體)來執行,這些數位儲存媒體與一可規劃電腦系統協作(或能夠協作)以便於執行各自的方法。
一些實施例依據本發明包含具有電子可讀取控制信號之一資料載體,該等電子可讀取控制信號能夠與一可規劃電腦系統協作,以便於執行本文所描述的該等方法當中之一方法。
大體上,本發明之實施例可作為具有一程式碼之一電腦程式產品來實施,當該電腦程式產品運行在一電腦上時該程式碼可操作以執行該等方法當中之一方法。該程式碼可例如儲存在一機器可讀取載體上。
其它實施例包含儲存在一機器可讀取載體上、用來執行本文所描述的該等方法當中之一方法之該電腦程式。
換言之,當該電腦程式運行在一電腦上時,本發明方法之一實施例進而是具有用來執行本文所描述的該等方法當中之一方法之一程式碼之一電腦程式。
本發明方法之一進一步的實施例進而是一資料載體(或一數位儲存媒體或一電腦可讀取媒體),該資料載體包含用來執行本文所描述的該等方法當中之一方法記錄於其上之該電腦程式。
本發明方法之一進一步的實施例進而是一資料流或一信號序列,表示用來執行本文所描述的該等方法當中之一方法之該電腦程式。該資料流或信號序列例如可遭組配以經由一資料通訊連接(例如經由網際網路)被傳輸。
一進一步的實施例包含遭組配用以或遭設計用以執行本文所描述的該等方法當中之一方法之一處理裝置(例如一電腦或一可規劃邏輯裝置)。
一進一步的實施例包含具有用來執行本文所描述的該等方法當中之一方法之該電腦程式安裝在其上之一電腦。
在一些實施例中,一可規劃邏輯裝置(例如一可現場規劃閘陣列)可用來執行本文所描述的該等方法當中之一些或所有該等功能。在一些實施例中,一可現場規劃閘陣列可與一微處理器協作以執行本文所描述的該等方法當中之一方法。大體上,該等方法較佳地由任何硬體裝置來完成。
上面所描述的該等實施例只是用來說明本發明之該等原理。要明白的是本文所描述的該等安排及該等細節之修改及變化對熟於此技者而言將是顯而易見的。因此,意圖是只受後附的申請專利範圍之該範圍限制並不受本文中以對實施例之描述及說明所表示的該等特定細節限制。
100‧‧‧裝置
102‧‧‧頻譜包絡數目
104‧‧‧頻譜包絡
104a‧‧‧小包絡、第一包絡
104b‧‧‧小包絡、第二包絡
104c‧‧‧另一包絡、第三包絡
105‧‧‧音訊信號
110‧‧‧後續時間部分、時間部分、相鄰時間部分
111~118‧‧‧第一至第八時間部分
120‧‧‧決策值計算器
125‧‧‧決策值
130‧‧‧違規檢測器、檢測器
135‧‧‧違規
140‧‧‧第一邊界決定處理器、處理器
145‧‧‧第一包絡邊界
145a‧‧‧第一包絡邊界
150‧‧‧第二邊界決定處理器、處理器
155‧‧‧第二包絡邊界
155a‧‧‧第二包絡邊界
155b‧‧‧另一第二包絡邊界
160‧‧‧包絡數目處理器、數目
處理器
205‧‧‧包絡資料
210‧‧‧包絡計算器、包絡資料計算器
300‧‧‧編碼器
310‧‧‧SBR相關模組
320‧‧‧分析QMF組、子頻帶QMF組
330‧‧‧降取樣器
340‧‧‧AAC核心編碼器、核心編碼器
350‧‧‧位元流酬載格式器
355‧‧‧編碼音訊流
360‧‧‧其它SBR模組
370‧‧‧切換決策單元
371‧‧‧切換決策信號
372‧‧‧音訊編碼器
373‧‧‧語音編碼器、語音/時域編碼部件
380‧‧‧立體聲編碼單元
610‧‧‧第一組樣本值、第一組樣本、樣本分佈
620‧‧‧第二組樣本值、第二組樣本、樣本分佈
630‧‧‧第三組樣本值
640‧‧‧第四組樣本值
第1圖顯示依據本發明之一實施例之用於計算頻譜包絡數目之一裝置之一方塊圖;第2圖顯示包含一包絡數目計算器之一SBR模組之一方塊圖;第3a及3b圖顯示包含一包絡數目計算器之一編碼器之方塊圖;第4圖說明在預決數目之時間部分中之一SBR訊框之分區;第5a至5c圖顯示針對包含三個涵蓋不同數目之時間部分之包絡之一SBR訊框之進一步的分區;第6a及6b圖說明針對在相鄰時間部分中的信號之該頻譜能量分佈;及第7a至7c圖顯示包含對於一音訊信號產生不同時間解析度之一可取捨的音訊/語音切換之一編碼器。
100...裝置
102...頻譜包絡數目
105...音訊信號
120...決策值計算器
125...決策值
130...違規檢測器、檢測器
135...違規
140...第一邊界決定處理器、處理器
145...第一包絡邊界
150...第二邊界決定處理器、處理器
155...第二包絡邊界
160...包絡數目處理器、數目處理器
Claims (18)
- 一種用於計算要由一頻帶複製(SBR)編碼器導出的一頻譜包絡數目之裝置,其中該SBR編碼器適於使用自一初始時間(t0)延伸到一最後時間(tn)之一SBR訊框內的一預定數目之後續時間部分中的多個樣本值來編碼一音訊信號,該預定數目之後續時間部分按該音訊信號所給定的一時間序列排列,該裝置包含:一決策值計算器,其用於決定一決策值,該決策值量測一對相鄰時間部分之頻譜能量分佈的一偏差;一檢測器,其用於藉由該決策值檢測對一臨限的一違規;一用以決定第一包絡邊界之處理器(140),其用於在檢測到對該臨限的該違規時決定在該對相鄰時間部分間的一第一包絡邊界;一用以決定第二包絡邊界之處理器(150),其用於針對具有該第一包絡邊界之一包絡決定在一不同對相鄰時間部分間或在該初始時間(t0)或在該最後時間(tn)之一第二包絡邊界,基於該另一對的對該臨限之該違規或者基於在該SBR訊框中的該對或該不同對之一時間位置;及一數目處理器,其用於確立具有該第一包絡邊界及該第二包絡邊界之頻譜包絡之該數目;其中時間部分之該預定數目等於n,在相鄰時間部分之間具有n-1個邊界,該等邊界關於時間來編號與排 序以使該等邊界包含偶數及奇數邊界,且其中該數目處理器適於如果該檢測器在一奇數邊界檢測到該違規則確立n為該頻譜包絡數目。
- 如申請專利範圍第1項所述之裝置,其中該預定數目之後續時間部分之一時間部分之一時間長度等於一最小時間長度,針對該最小時間長度一單一包絡遭決定,及其中該決策值計算器適於針對具有該最小時間長度之兩相鄰時間部分計算一決策值。
- 如申請專利範圍第1項所述之裝置,其中該用以決定第一包絡邊界之處理器適於在一第一獲檢測違規處確定該第一邊界,及其中該用以決定第二包絡邊界之處理器適於在將至少一另一決策值與該臨限比較後確定該第二包絡邊界。
- 如申請專利範圍第3項所述之裝置,其進一步包含用於提供額外旁側資訊之一資訊處理器,該額外旁側資訊包含在該音訊信號之該時間序列中之該第一包絡邊界及該第二包絡邊界。
- 如申請專利範圍第1項所述之裝置,其中該檢測器適於以一時間順序研究相鄰時間部分間的該等邊界中的每個邊界。
- 如申請專利範圍第1項所述之裝置,其中該檢測器適於首先在奇數邊界上檢測該違規。
- 如申請專利範圍第1項所述之裝置,其中該檢測器適於決定該第二邊界以使該等頻譜包絡包含一相同的時間 長度且該頻譜包絡數目是2的冪次。
- 如申請專利範圍第7項所述之裝置,其中該預定數目等於8,且其中該數目處理器適於確立該頻譜包絡數目為1、2、4或8以使該等頻譜包絡中的每個頻譜包絡包含一相同的時間長度。
- 如申請專利範圍第7項所述之裝置,其中該檢測器適於使用一臨限,該臨限視該違規的一時間位置而定,以使在產生一較大數目之頻譜包絡之一時間位置比產生一較小數目之頻譜包絡之一時間位置使用一較高的臨限。
- 如申請專利範圍第1項所述之裝置,其進一步包含具有一暫態臨限之一暫態檢測器,該暫態臨限大於該臨限及/或進一步包含一包絡資料計算器,該包絡資料計算器適於針對自該第一包絡邊界延伸到該第二包絡邊界之一頻譜包絡計算頻譜包絡資料。
- 如申請專利範圍第1項所述之裝置,其進一步包含遭組配以提供一切換決策信號之一切換決策單元,該切換決策信號發信號通知一類似語音的音訊信號及一類似一般音訊的音訊信號,其中該檢測器適於降低針對類似語音音訊信號的該臨限。
- 一種用於計算要由一頻帶複製(SBR)編碼器導出的一頻譜包絡數目之裝置,其中該SBR編碼器適於使用自一初始時間(t0)延伸到一最後時間(tn)之一SBR訊框內的一預定數目之後續時間部分中的多個樣本值來編碼一音訊信號,該預定數目之後續時間部分按該音訊信號所給 定的一時間序列排列,該裝置包含:一決策值計算器,其用於決定一決策值,該決策值量測一對相鄰時間部分之頻譜能量分佈的一偏差;一檢測器,其用於藉由該決策值檢測對一臨限的一違規;一用以決定第一包絡邊界之處理器(140),其用於在檢測到對該臨限的該違規時決定在該對相鄰時間部分間的一第一包絡邊界;一用以決定第二包絡邊界之處理器(150),其用於針對具有該第一包絡邊界之一包絡決定在一不同對相鄰時間部分間或在該初始時間(t0)或在該最後時間(tn)之一第二包絡邊界,基於該另一對的對該臨限之該違規或者基於在該SBR訊框中的該對或該不同對之一時間位置;及一數目處理器,其用於確立具有該第一包絡邊界及該第二包絡邊界之頻譜包絡之該數目;其中該檢測器適於決定該第二邊界以使該等頻譜包絡包含一相同的時間長度且該頻譜包絡數目是2的冪次。
- 一種用於計算要由一頻帶複製(SBR)編碼器導出的一頻譜包絡數目之裝置,其中該SBR編碼器適於使用自一初始時間(t0)延伸到一最後時間(tn)之一SBR訊框內的一預定數目之後續時間部分中的多個樣本值來編碼一音訊信號,該預定數目之後續時間部分按該音訊信號所給 定的一時間序列排列,該裝置包含:一決策值計算器,其用於決定一決策值,該決策值量測一對相鄰時間部分之頻譜能量分佈的一偏差;一檢測器,其用於藉由該決策值檢測對一臨限的一違規;一用以決定第一包絡邊界之處理器(140),其用於在檢測到對該臨限的該違規時決定在該對相鄰時間部分間的一第一包絡邊界;一用以決定第二包絡邊界之處理器(150),其用於針對具有該第一包絡邊界之一包絡決定在一不同對相鄰時間部分間或在該初始時間(t0)或在該最後時間(tn)之一第二包絡邊界,基於該另一對的對該臨限之該違規或者基於在該SBR訊框中的該對或該不同對之一時間位置;及一數目處理器,其用於確立具有該第一包絡邊界及該第二包絡邊界之頻譜包絡之該數目;一切換決策單元,其組配以提供一切換決策信號,該切換決策信號發信號通知一類似語音的音訊信號及一類似一般音訊的音訊信號,其中該檢測器適於降低針對類似語音音訊信號的該臨限。
- 一種用於編碼一音訊信號之編碼器,其包含:一核心編碼器,其用於編碼在一核心頻帶內的該音訊信號;如申請專利範圍第1至13項中的任一項所述之裝 置;及一包絡資料計算器,其用於根據該音訊信號及該數目計算包絡資料。
- 一種用於計算要由一頻帶複製(SBR)編碼器導出的一頻譜包絡數目之方法,其中該SBR編碼器適於使用自一初始時間(t0)延伸到一最後時間(tn)之一SBR訊框內的一預定數目之後續時間部分中之多個樣本值來編碼一音訊信號,該預定數目之後續時間部分按該音訊信號所給定的一時間序列排列,該方法包含以下步驟:決定一決策值,該決策值量測一對相鄰時間部分之頻譜能量分佈的一偏差;藉由該決策值來檢測對一臨限的一違規;在檢測到對該臨限的該違規時決定在該對相鄰時間部分間的一第一包絡邊界;針對具有該第一包絡邊界之一包絡,決定在一不同對相鄰時間部分間或在該初始時間(t0)或在最後時間(tn)之一第二包絡邊界,基於該另一對的對該臨限的該違規或基於在該SBR訊框中的該對或該不同對之一時間位置;及確立具有該第一包絡邊界及該第二包絡邊界之頻譜包絡的該數目;其中時間部分之該預定數目等於n,在相鄰時間部分之間具有n-1個邊界,該等邊界關於時間來編號與排序以使該等邊界包含偶數及奇數邊界,以及 其中如果在一奇數邊界檢測到該違規,則確立n為該頻譜包絡數目。
- 一種用於計算要由一頻帶複製(SBR)編碼器導出的一頻譜包絡數目之方法,其中該SBR編碼器適於使用自一初始時間(t0)延伸到一最後時間(tn)之一SBR訊框內的一預定數目之後續時間部分中之多個樣本值來編碼一音訊信號,該預定數目之後續時間部分按該音訊信號所給定的一時間序列排列,該方法包含以下步驟:決定一決策值,該決策值量測一對相鄰時間部分之頻譜能量分佈的一偏差;藉由該決策值來檢測對一臨限的一違規;在檢測到對該臨限的該違規時決定在該對相鄰時間部分間的一第一包絡邊界;針對具有該第一包絡邊界之一包絡,決定在一不同對相鄰時間部分間或在該初始時間(t0)或在最後時間(tn)之一第二包絡邊界,基於該另一對的對該臨限的該違規或基於在該SBR訊框中的該對或該不同對之一時間位置;及確立具有該第一包絡邊界及該第二包絡邊界之頻譜包絡的該數目;其中決定該第二邊界以使該等頻譜包絡包含一相同的時間長度且該頻譜包絡數目是2的冪次。
- 一種用於計算要由一頻帶複製(SBR)編碼器導出的一頻譜包絡數目之方法,其中該SBR編碼器適於使用自一初 始時間(t0)延伸到一最後時間(tn)之一SBR訊框內的一預定數目之後續時間部分中之多個樣本值來編碼一音訊信號,該預定數目之後續時間部分按該音訊信號所給定的一時間序列排列,該方法包含以下步驟:決定一決策值,該決策值量測一對相鄰時間部分之頻譜能量分佈的一偏差;藉由該決策值來檢測對一臨限的一違規;在檢測到對該臨限的該違規時決定在該對相鄰時間部分間的一第一包絡邊界;針對具有該第一包絡邊界之一包絡,決定在一不同對相鄰時間部分間或在該初始時間(t0)或在最後時間(tn)之一第二包絡邊界,基於該另一對的對該臨限的該違規或基於在該SBR訊框中的該對或該不同對之一時間位置;及確立具有該第一包絡邊界及該第二包絡邊界之頻譜包絡的該數目;其中提供一切換決策信號,其中該切換決策信號發信號通知一類似語音的音訊信號及一類似一般音訊的音訊信號,以及其中降低針對類似語音音訊信號的該臨限。
- 一種包含一電腦程式之電腦程式產品,當該電腦程式在一處理器上執行時用於執行如申請專利範圍第15、16、或17項所述之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7984108P | 2008-07-11 | 2008-07-11 | |
PCT/EP2009/004523 WO2010003546A2 (en) | 2008-07-11 | 2009-06-23 | An apparatus and a method for calculating a number of spectral envelopes |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201007700A TW201007700A (en) | 2010-02-16 |
TWI415114B true TWI415114B (zh) | 2013-11-11 |
Family
ID=40902067
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098122397A TWI415114B (zh) | 2008-07-11 | 2009-07-02 | 用於計算頻譜包絡數目之裝置與方法 |
TW098122396A TWI415115B (zh) | 2008-07-11 | 2009-07-02 | 用以產生帶寬擴展輸出資料之裝置與方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098122396A TWI415115B (zh) | 2008-07-11 | 2009-07-02 | 用以產生帶寬擴展輸出資料之裝置與方法 |
Country Status (20)
Country | Link |
---|---|
US (2) | US8296159B2 (zh) |
EP (2) | EP2301028B1 (zh) |
JP (2) | JP5551694B2 (zh) |
KR (5) | KR101345695B1 (zh) |
CN (2) | CN102089817B (zh) |
AR (3) | AR072480A1 (zh) |
AU (2) | AU2009267530A1 (zh) |
BR (2) | BRPI0910523B1 (zh) |
CA (2) | CA2729971C (zh) |
CO (2) | CO6341676A2 (zh) |
ES (2) | ES2539304T3 (zh) |
HK (2) | HK1156141A1 (zh) |
IL (2) | IL210196A (zh) |
MX (2) | MX2011000361A (zh) |
MY (2) | MY155538A (zh) |
PL (2) | PL2301027T3 (zh) |
RU (2) | RU2494477C2 (zh) |
TW (2) | TWI415114B (zh) |
WO (2) | WO2010003546A2 (zh) |
ZA (2) | ZA201009207B (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9177569B2 (en) | 2007-10-30 | 2015-11-03 | Samsung Electronics Co., Ltd. | Apparatus, medium and method to encode and decode high frequency signal |
AU2011226211B2 (en) | 2010-03-09 | 2014-01-09 | Dolby International Ab | Apparatus and method for processing an audio signal using patch border alignment |
WO2011110494A1 (en) | 2010-03-09 | 2011-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals |
ES2449476T3 (es) | 2010-03-09 | 2014-03-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato, procedimiento y programa de ordenador para procesar una señal de audio |
KR101364685B1 (ko) * | 2010-04-13 | 2014-02-19 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호의 샘플 정밀 표현을 위한 방법 및 인코더와 디코더 |
CN102947882B (zh) * | 2010-04-16 | 2015-06-17 | 弗劳恩霍夫应用研究促进协会 | 使用制导带宽扩展和盲带宽扩展生成宽带信号的装置、方法 |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5743137B2 (ja) * | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5633431B2 (ja) * | 2011-03-02 | 2014-12-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
WO2012158333A1 (en) | 2011-05-19 | 2012-11-22 | Dolby Laboratories Licensing Corporation | Forensic detection of parametric audio coding schemes |
US9633654B2 (en) | 2011-12-06 | 2017-04-25 | Intel Corporation | Low power voice detection |
JP5997592B2 (ja) | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
EP2704142B1 (en) * | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
WO2014034697A1 (ja) * | 2012-08-29 | 2014-03-06 | 日本電信電話株式会社 | 復号方法、復号装置、プログラム、及びその記録媒体 |
EP2709106A1 (en) * | 2012-09-17 | 2014-03-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
MX346945B (es) * | 2013-01-29 | 2017-04-06 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia. |
WO2014118179A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates |
PL3121813T3 (pl) | 2013-01-29 | 2020-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Wypełnianie szumem bez informacji pomocniczych dla koderów typu celp |
EP2981959B1 (en) | 2013-04-05 | 2018-07-25 | Dolby International AB | Audio encoder and decoder for interleaved waveform coding |
EP2981956B1 (en) | 2013-04-05 | 2022-11-30 | Dolby International AB | Audio processing system |
JP6224233B2 (ja) | 2013-06-10 | 2017-11-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 |
WO2014198726A1 (en) | 2013-06-10 | 2014-12-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
MX358362B (es) * | 2013-06-21 | 2018-08-15 | Fraunhofer Ges Forschung | Decodificador de audio que tiene un modulo de extension de ancho de banda con un modulo de ajuste de energia. |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
JP6242489B2 (ja) * | 2013-07-29 | 2017-12-06 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法 |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
KR101913241B1 (ko) | 2013-12-02 | 2019-01-14 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 인코딩 방법 및 장치 |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US10120067B2 (en) | 2014-08-29 | 2018-11-06 | Leica Geosystems Ag | Range data compression |
TWI771266B (zh) | 2015-03-13 | 2022-07-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
CN117238300A (zh) | 2016-01-22 | 2023-12-15 | 弗劳恩霍夫应用研究促进协会 | 使用帧控制同步来编码或解码多声道音频信号的装置和方法 |
CN105513601A (zh) * | 2016-01-27 | 2016-04-20 | 武汉大学 | 一种音频编码带宽扩展中频带复制的方法及装置 |
EP3288031A1 (en) | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US10084493B1 (en) * | 2017-07-06 | 2018-09-25 | Gogo Llc | Systems and methods for facilitating predictive noise mitigation |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
US11811686B2 (en) | 2020-12-08 | 2023-11-07 | Mediatek Inc. | Packet reordering method of sound bar |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001026095A1 (en) * | 1999-10-01 | 2001-04-12 | Coding Technologies Sweden Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
EP1672618A1 (en) * | 2003-10-07 | 2006-06-21 | Matsushita Electric Industrial Co., Ltd. | Method for deciding time boundary for encoding spectrum envelope and frequency resolution |
US20080120116A1 (en) * | 2006-10-18 | 2008-05-22 | Markus Schnell | Encoding an Information Signal |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
RU2256293C2 (ru) * | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
RU2128396C1 (ru) * | 1997-07-25 | 1999-03-27 | Гриценко Владимир Васильевич | Способ передачи и приема информации и устройство для его осуществления |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6618701B2 (en) | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
SE0004187D0 (sv) | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
EP1550108A2 (en) | 2002-10-11 | 2005-07-06 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
JP2004350077A (ja) * | 2003-05-23 | 2004-12-09 | Matsushita Electric Ind Co Ltd | アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法 |
SE0301901L (sv) | 2003-06-26 | 2004-12-27 | Abb Research Ltd | Metod för att diagnostisera utrustningsstatus |
KR101008022B1 (ko) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | 유성음 및 무성음 검출방법 및 장치 |
JP2007524124A (ja) * | 2004-02-16 | 2007-08-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | トランスコーダ及びそのための符号変換方法 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US8314694B2 (en) | 2004-06-28 | 2012-11-20 | Abb Research Ltd | System and method for suppressing redundant alarms |
EP1638083B1 (en) * | 2004-09-17 | 2009-04-22 | Harman Becker Automotive Systems GmbH | Bandwidth extension of bandlimited audio signals |
US7715573B1 (en) * | 2005-02-28 | 2010-05-11 | Texas Instruments Incorporated | Audio bandwidth expansion |
KR100803205B1 (ko) * | 2005-07-15 | 2008-02-14 | 삼성전자주식회사 | 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
WO2007037361A1 (ja) * | 2005-09-30 | 2007-04-05 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
KR100647336B1 (ko) | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
WO2007093726A2 (fr) * | 2006-02-14 | 2007-08-23 | France Telecom | Dispositif de ponderation perceptuelle en codage/decodage audio |
EP1852849A1 (en) | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream |
US20070282803A1 (en) * | 2006-06-02 | 2007-12-06 | International Business Machines Corporation | Methods and systems for inventory policy generation using structured query language |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
EP2062255B1 (en) | 2006-09-13 | 2010-03-31 | Telefonaktiebolaget LM Ericsson (PUBL) | Methods and arrangements for a speech/audio sender and receiver |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
US8639500B2 (en) | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
JP5103880B2 (ja) * | 2006-11-24 | 2012-12-19 | 富士通株式会社 | 復号化装置および復号化方法 |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
WO2008151408A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711 |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
WO2009081315A1 (en) | 2007-12-18 | 2009-07-02 | Koninklijke Philips Electronics N.V. | Encoding and decoding audio or speech |
DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
AU2009220321B2 (en) * | 2008-03-03 | 2011-09-22 | Intellectual Discovery Co., Ltd. | Method and apparatus for processing audio signal |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
-
2009
- 2009-06-23 ES ES09776809.7T patent/ES2539304T3/es active Active
- 2009-06-23 RU RU2011103999/08A patent/RU2494477C2/ru active
- 2009-06-23 BR BRPI0910523-9A patent/BRPI0910523B1/pt active IP Right Grant
- 2009-06-23 ES ES09776811T patent/ES2398627T3/es active Active
- 2009-06-23 KR KR1020137007019A patent/KR101345695B1/ko active IP Right Grant
- 2009-06-23 KR KR1020117000542A patent/KR101395250B1/ko active IP Right Grant
- 2009-06-23 JP JP2011516988A patent/JP5551694B2/ja active Active
- 2009-06-23 CN CN2009801271169A patent/CN102089817B/zh active Active
- 2009-06-23 KR KR1020137018759A patent/KR101395252B1/ko active IP Right Grant
- 2009-06-23 CA CA2729971A patent/CA2729971C/en active Active
- 2009-06-23 MY MYPI2011000037A patent/MY155538A/en unknown
- 2009-06-23 BR BRPI0910517-4A patent/BRPI0910517B1/pt active IP Right Grant
- 2009-06-23 CA CA2730200A patent/CA2730200C/en active Active
- 2009-06-23 MY MYPI2011000063A patent/MY153594A/en unknown
- 2009-06-23 WO PCT/EP2009/004523 patent/WO2010003546A2/en active Application Filing
- 2009-06-23 MX MX2011000361A patent/MX2011000361A/es active IP Right Grant
- 2009-06-23 PL PL09776809T patent/PL2301027T3/pl unknown
- 2009-06-23 CN CN200980134905.5A patent/CN102144259B/zh active Active
- 2009-06-23 KR KR1020117000543A patent/KR101278546B1/ko active IP Right Grant
- 2009-06-23 RU RU2011101617/08A patent/RU2487428C2/ru active
- 2009-06-23 AU AU2009267530A patent/AU2009267530A1/en not_active Abandoned
- 2009-06-23 EP EP09776811A patent/EP2301028B1/en active Active
- 2009-06-23 MX MX2011000367A patent/MX2011000367A/es active IP Right Grant
- 2009-06-23 AU AU2009267532A patent/AU2009267532B2/en active Active
- 2009-06-23 PL PL09776811T patent/PL2301028T3/pl unknown
- 2009-06-23 EP EP09776809.7A patent/EP2301027B1/en active Active
- 2009-06-23 WO PCT/EP2009/004521 patent/WO2010003544A1/en active Application Filing
- 2009-06-23 KR KR1020137018760A patent/KR101395257B1/ko active IP Right Grant
- 2009-06-23 JP JP2011516986A patent/JP5628163B2/ja active Active
- 2009-07-02 TW TW098122397A patent/TWI415114B/zh active
- 2009-07-02 TW TW098122396A patent/TWI415115B/zh active
- 2009-07-07 AR ARP090102546A patent/AR072480A1/es active IP Right Grant
- 2009-07-07 AR ARP090102548A patent/AR072552A1/es unknown
-
2010
- 2010-12-22 ZA ZA2010/09207A patent/ZA201009207B/en unknown
- 2010-12-23 IL IL210196A patent/IL210196A/en active IP Right Grant
- 2010-12-29 IL IL210330A patent/IL210330A0/en active IP Right Grant
-
2011
- 2011-01-04 ZA ZA2011/00086A patent/ZA201100086B/en unknown
- 2011-01-06 CO CO11001332A patent/CO6341676A2/es not_active Application Discontinuation
- 2011-01-11 US US13/004,255 patent/US8296159B2/en active Active
- 2011-01-11 US US13/004,264 patent/US8612214B2/en active Active
- 2011-01-27 CO CO11009136A patent/CO6341677A2/es not_active Application Discontinuation
- 2011-09-28 HK HK11110215.5A patent/HK1156141A1/zh unknown
- 2011-09-28 HK HK11110214.6A patent/HK1156140A1/xx unknown
-
2014
- 2014-08-27 AR ARP140103215A patent/AR097473A2/es active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001026095A1 (en) * | 1999-10-01 | 2001-04-12 | Coding Technologies Sweden Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
EP1672618A1 (en) * | 2003-10-07 | 2006-06-21 | Matsushita Electric Industrial Co., Ltd. | Method for deciding time boundary for encoding spectrum envelope and frequency resolution |
US20080120116A1 (en) * | 2006-10-18 | 2008-05-22 | Markus Schnell | Encoding an Information Signal |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI415114B (zh) | 用於計算頻譜包絡數目之裝置與方法 | |
US8275626B2 (en) | Apparatus and a method for decoding an encoded audio signal | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
TWI576832B (zh) | 產生帶寬延伸訊號的裝置與方法 | |
CN107077855B (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
KR20180134379A (ko) | 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램 |