TWI590237B - 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 - Google Patents
用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 Download PDFInfo
- Publication number
- TWI590237B TWI590237B TW104123864A TW104123864A TWI590237B TW I590237 B TWI590237 B TW I590237B TW 104123864 A TW104123864 A TW 104123864A TW 104123864 A TW104123864 A TW 104123864A TW I590237 B TWI590237 B TW I590237B
- Authority
- TW
- Taiwan
- Prior art keywords
- noise
- audio signal
- energy value
- audio
- domain
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 82
- 238000000034 method Methods 0.000 title claims description 68
- 238000012545 processing Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000012896 Statistical algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims 1
- 238000005192 partition Methods 0.000 description 17
- 230000003595 spectral effect Effects 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000009499 grossing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012073 inactive phase Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Description
本發明係關於處理音訊信號之領域,更具體言之,係關於一種用於估計音訊信號中(例如,待編碼之音訊信號中或已經解碼之音訊信號中)之雜訊之方法。實施例描述一種用於估計音訊信號中之雜訊之方法、一種雜訊估計器、一種音訊編碼器、一種音訊解碼器及一種用於傳送音訊信號之系統。
在處理音訊信號之領域(例如,用於編碼音訊信號或用於處理經解碼音訊信號)中,存在需要估計雜訊之情形。舉例而言,被以引用的方式併入本文中之PCT/EP2012/077525及PCT/EP2012/077527描述使用雜訊估計器(例如,最小統計雜訊估計器)估計頻域中的背景雜訊之
頻譜。饋入至演算法內的信號已經(例如)藉由快速傅立葉變換(FFT)或任一其他合適的濾波器組逐塊變換成頻域。成框通常等同於編碼解碼器之成框,亦即,可再使用編碼解碼器中已存在之變換,例如,在EVS(增強型話音服務)編碼器中,FFT用於預處理。出於雜訊估計之目的,計算FFT之功率頻譜。將頻譜分群成心理聲學激勵之頻帶,且在一頻帶內之功率頻譜區間經累積以每一頻帶形成一能量值。最後,藉由此方法達成一組能量值此方法亦常用於以心理聲學方式處理音訊信號。每一頻帶具有其自身的雜訊估計演算法,亦即,在每一訊框中,使用雜訊估計演算法處理彼訊框之能量值,該雜訊估計演算法隨著時間過去分析信號且針對在任一給定訊框處之每一頻帶給出估計之雜訊級。
用於高品質語音及音訊信號之樣本分辨率可為
16個位元,亦即,該信號具有96dB之信雜比(SNR)。計算功率頻譜意謂將信號變換成頻域且計算每一頻率區間之平方。歸因於平方函數,此需要32個位元之動態範圍。至頻帶內的若干功率頻譜區間之求和需要用於動態範圍之額外容許度,此係因為頻帶內之能量分佈實際上未知。結果,需要支援大於32個位元(通常,大約40個位元)之動態範圍以在處理器上執行雜訊估計器。
在處理音訊信號之裝置(其基於自如電池之能量
儲存單元接收之能量操作,例如,如行動電話之攜帶型裝置)中,為了保存能量,音訊信號之高功率效率處理對於電池使用期限係至關重要的。根據已知方法,音訊信號之處
理由固定點處理器(其通常支援呈16或32個位元固定點格式的資料之處理)執行。藉由處理16個位元資料達成針對處理之最低複雜度,而處理32個位元資料已需要某一附加項。處理具有40個位元動態範圍之資料需要將該資料分裂成兩個,即,尾數及指數,必須當修改資料時處置其中之兩者,此又導致甚至更高的計算複雜度及甚至更高的儲存需求。
從上文所論述之先前技術開始,本發明之一目標為提供一種用於使用固定點處理器以高效方式估計音訊信號中之雜訊以用於避免不必要的計算附加項之方法。
此目標係藉由如在獨立請求項中定義之標的物達成。
本發明提供一種用於估計一音訊信號中之雜訊之方法,該方法包含判定用於該音訊信號之一能量值,將該能量值轉換成對數域及基於該經轉換之能量值估計用於該音訊信號之一雜訊級。
本發明提供一種雜訊估計器,該雜訊估計器包含:一偵測器,其經組配以判定用於該音訊信號之一能量值;一轉換器,其經組配以將該能量值轉換成對數域;一估計器,其經組配以基於該經轉換之能量值估計用於該音訊信號之一雜訊級。
本發明提供一種雜訊估計器,其經組配以根據本
發明之方法操作。
根據實施例,對數域包含log2域。
根據實施例,估計雜訊級包含直接在對數域中基
於經轉換之能量值執行預定義之雜訊估計演算法。可基於由R.Martin描述之最小統計演算法進行雜訊估計(「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」,2001)。在其他實施例中,可使用替代性雜訊估計演算法,如由T.Gerkmann及R.C.Hendriks描述的基於MMSE之雜訊估計器(「Unbiased MMSE-based noise power estimation with low complexity and low tracking delay」,2012),或由L.Lin、W.Holmes及E.Ambikairajah描述的演算法(「Adaptive noise estimation algorithm for speech enhancement」,2003)。
根據實施例,判定該能量值包含藉由將該音訊信號變換成該頻域來獲得該音訊信號之一功率頻譜,將該功率頻譜分群成心理聲學激勵之頻帶,及聚積一頻帶內之功率頻譜區間以針對每一頻帶形成一能量值,其中將用於每一頻帶之能量值轉換成對數域,且其中基於對應的經轉換之能量值針對每一頻帶估計一雜訊級。
根據實施例,該音訊信號包含多個訊框,且針對每一訊框,判定能量值且將其轉換成對數域,且基於經轉換之能量值針對針對每一頻帶估計雜訊級。
根據實施例,將能量值轉換成對數域,如下:
floor(x),E n_log log2域中的頻帶n之能量值,E n_lin 線性域中的頻帶n之能量值,N 解析度/精確度。
根據實施例,基於經轉換之能量值估計雜訊級產生對數資料,且該方法進一步包括將對數資料直接用於進一步處理,或將對數資料轉換回成線性域供進一步處理。
根據實施例,倘若在對數域中進行傳送,則將對數資料直接轉換成傳送資料,且將對數資料直接轉換成傳送資料使用移位函數,連同查找表或近似法,例如,。
本發明提供一種非暫時性電腦程式產品,其包含存儲指令之一電腦可讀媒體,該等指令當在一電腦上執行時進行本發明之方法。
本發明提供一種音訊編碼器,其包含本發明之雜訊估計器。
本發明提供一種音訊解碼器,其包含本發明之雜訊估計器。
本發明提供一種用於傳送音訊信號之系統,該系統包含:一音訊編碼器,其經組配以基於一接收之音訊信號產生經寫碼音訊信號;及一音訊解碼器,其經組配以接收該經寫碼音訊信號,解碼該經寫碼音訊信號,且輸出該經解碼音訊信號,其中該音訊編碼器及該音訊解碼器中之至少一者包含本發明之雜訊估計器。
本發明係基於本發明者之發現,與對線性能量資
料執行雜訊估計演算法之習知方法相反,出於估計音訊/語音材料中之雜訊級之目的,亦基於對數輸入資料執行演算法係可能的。為了雜訊估計,對資料精確度之需求並不非常高,例如,當將估計之值用於舒適雜訊產生時,如在PCT/EP2012/077525或PCT/EP2012/077527中所描述,兩者皆被以引用的方式併入本文中,已發現,估計每頻帶之大致正確的雜訊級係足夠的,亦即,不管雜訊級經估計為(例如)0.1dB高或是將不在最終信號中可辨。因此,雖然可能需要40個位元來涵蓋資料之動態範圍,但在習知方法中,對於中階/高階信號之資料精確度比實際上所必要高得多。基於此等發現,根據實施例,本發明之關鍵要素為將每頻帶之能量值轉換成對數域(較佳地,log2域),且直接在對數域中(例如)基於最小統計演算法或任一其他合適演算法進行雜訊估計,此允許按16個位元表達能量值,此又允許更高效之處理,例如,使用固定點處理器。
100‧‧‧編碼器
102、152‧‧‧輸入端
104‧‧‧音訊信號
106‧‧‧編碼處理器
108、160‧‧‧輸出端
110、154‧‧‧天線
112‧‧‧無線傳送
114‧‧‧有線連接線/有線線
150‧‧‧解碼器
156‧‧‧解碼處理器
158‧‧‧經解碼音訊信號
170‧‧‧雜訊估計器
172‧‧‧偵測器
174‧‧‧能量值
176‧‧‧轉換器
178‧‧‧經轉換之能量值
180‧‧‧估計器
182‧‧‧對數資料
S100-S112‧‧‧步驟
在下文中,將參考隨附圖式,描述本發明之實施例,其中:圖1展示實施用於估計待編碼之音訊信號中或經解碼音訊信號中之雜訊的本發明之方法的用於傳送音訊信號之系統之簡化方塊圖,圖2展示根據一實施例的雜訊估計器之簡化方塊圖,該雜訊估計器可用於音訊信號編碼器及/或音訊信號解碼器
中,以及圖3展示根據一實施例的描繪用於估計音訊信號中之雜訊的本發明之方法之流程圖。
在下文中,將更詳細地描述本發明方法之實施例,且應注意,在隨附圖式中,具有相同或類似功能性之元件由相同參考標號表示。
圖1展示在編碼器側及/或在解碼器側實施本發明之方法的用於傳送音訊信號之系統之簡化方塊圖。圖1之系統包含在輸入端102接收音訊信號104之編碼器100。該編碼器包括一編碼處理器106,其接收音訊信號104且產生在編碼器之輸出端108提供的經編碼音訊信號。編碼處理器可經規劃或建置以用於處理音訊信號之連續音訊訊框及用於實施用於估計待編碼之音訊信號104中之雜訊的本發明之方法。在其他實施例中,編碼器不需要為傳送系統之部分,然而,其可為產生經編碼音訊信號之獨立裝置,或其可為音訊信號傳送器之部分。根據一實施例,編碼器100可包括一天線110以允許音訊信號之無線傳送,如在112處所指示。在其他實施例中,編碼器100可使用有線連接線輸出在輸出端108處提供之經編碼音訊信號,如其(例如)在參考標號114處所指示。
圖1之系統進一步包含一解碼器150,其具有接收待由解碼器150處理之經編碼音訊信號(例如,經由有線線
114或經由天線154)的輸入端152。解碼器150包含一解碼處理器156,其對編碼之信號操作且在輸出端160處提供經解碼音訊信號158。解碼處理器可經規劃或建置以用於處理,用於實施估計經解碼音訊信號104中之雜訊的本發明之方法。在其他實施例中,解碼器不需要為傳送系統之部分,相反地,其可為用於解碼經編碼音訊信號之獨立裝置,或其可為音訊信號接收器之部分。
圖2展示根據一實施例的雜訊估計器170之簡化
方塊圖。雜訊估計器170可用於圖1中展示之音訊信號編碼器及/或音訊信號解碼器中。雜訊估計器170包括用於判定用於音訊信號102之能量值174的偵測器172、用於將能量值174轉換成對數域(見經轉換之能量值178)的轉換器176及用於基於經轉換之能量值178估計用於音訊信號102之雜訊級182的估計器180。估計器170可由共同處理器或由經規劃或建置用於實施偵測器172、轉換器176及估計器180之功能性的多個處理器實施。
在下文中,將更詳細地描述可實施於圖1之編碼
處理器106及解碼處理器156中之至少一者中或由圖2之估計器170實施的本發明方法之實施例。
圖3展示用於估計音訊信號中之雜訊的本發明之
方法之流程圖。接收音訊信號,且在第一步驟S100中,判定用於音訊信號之能量值174,接著在步驟S102中,將該能量值轉換成對數域。基於經轉換之能量值178,在步驟S104中,估計雜訊。根據實施例,在步驟S106中,判定關於由
對數資料182表示的估計之雜訊資料之進一步處理是否應在對數域中。倘若需要在對數域中之進一步處理(在步驟S106中,是),則在步驟S108中處理表示估計之雜訊的對數資料,例如,倘若傳送亦發生在對數域中,則將對數資料轉換成傳送參數。否則(在步驟S106中,否),在步驟S110中,將對數資料182轉換回成線性資料,且在步驟S112中處理線性資料。
根據實施例,在步驟S100中,可如在習知方法中
進行判定用於音訊信號之能量值。已應用於音訊信號的FFT之功率頻譜經計算且分群至心理聲學激勵之頻帶內。一頻帶內之功率頻譜區間經累積以每頻帶形成一能量值,使得獲得一組能量值。在其他實施例中,可基於任何合適的頻譜變換來計算功率頻譜,如MDCT(修改之離散餘弦變換)、CLDFB(複雜低延遲濾波器組)或涵蓋頻譜之不同部分的若干變換之組合。在步驟S100中,判定用於每一頻帶之能量值174,且在步驟S102中將用於每一頻帶之能量值174轉換成對數域,根據實施例,轉換成log2域。可如下將頻帶能量轉換成log2域:
floor(x),E n_log log2域中的頻帶n之能量值,E n_lin 線性域中的頻帶n之能量值,N 解析度/精確度。
根據實施例,執行至log2域之轉換,其有利之處
在於,通常可使用「norm」函數(其判定固定點數目中的前導零之數目)在固定點處理器上非常快速地計算(int)log2函數,例如,在一個循環中。有時需要比(int)log2高的精確度,其在上式中由常數N表達。可在norm指令及近似法(其為用於當較低精確度可接受時達成低複雜度對數計算之普通方法)後藉由具有最高有效位元之簡單查找表來達成此稍微較高之精確度。在上式中,添加在log2函數內部之常數「1」以確保經轉換之能量保持正。根據實施例,倘若雜訊估計器依賴於雜訊能量之統計模型,則此可為重要的,因為對負值執行雜訊估計將違背此模型且將導致估計器的未預期之行為。
根據一實施例,在上式中,將N設定至6,其等
效於26=64個位元之動態範圍。此大於40個位元之上述動態範圍,且因此足夠。為了處理資料,目標為使用16位元資料,此留下9個位元用於尾數及一個位元用於正負號。通常將此格式表示為「6Q9」格式。替代地,由於可考慮僅正值,因此可避免正負號位元,且將其用於尾數,從而一共10個位元用於尾數,此被稱作「6Q10」格式。
最小統計演算法之詳細描述可在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中發現。其基本上在於針對每一頻譜帶追蹤在給定長度之滑動時間窗上(通常在兩三秒內)的變光滑之功率頻譜之最小值。演算
法亦包括偏壓補償以改良雜訊估計之準確性。此外,為了改良時變雜訊之追蹤,可使用在短得多之時間窗上計算的局部最小值來替代原始最小值,限制性條件為其產生估計之雜訊能量的適度增加。在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中藉由參數noise_slope_max判定容許之增加量。根據一實施例,使用最小統計雜訊估計演算法,其習知地對線性能量資料執行。然而,根據本發明者之發現,出於估計音訊材料或語音材料中之雜訊級之目的,可取而代之藉由對數輸入資料對演算法饋入。雖然信號處理自身保持未修改,但僅需要最小重調,其在於減小參數noise_slope_max以應對對數資料之減小的動態範圍(與線性資料相比)。迄今為止,假定需要對線性資料執行最小統計演算法或其他合適雜訊估計技術,亦即,實際上為對數表示之資料被假定為不合適。與此習知假定相反,本發明者發現可實際上基於允許使用僅按16個位元表示之輸入資料的對數資料執行雜訊估計,因此,其提供固定點實施中之低得多之複雜度,因為多數操作可在16個位元中進行,且僅演算法之一些部分仍需要32個位元。舉例而言,在最小統計演算法中,偏差補償係基於輸入功率之方差,因此,通常仍需要32位元表示之四階統計。
如上已關於圖3描述,可以不同方式進一步處理
雜訊估計過程之結果。根據實施例,第一方式為直接使用對數資料182,如在步驟S108中所展示,例如,藉由將對數
資料182直接轉換成傳送參數(若亦在對數域中傳送此等參數,情況通常如此)。第二方式為處理對數資料182,使得將其轉換回成線性域供進一步處理,例如,使用通常非常快且通常需要處理器上之僅一個循環的移位函數,連同表查找或藉由使用近似法,例如:
在下文中,將參照編碼器來描述用於實施用於基於對數資料估計雜訊的本發明之方法之詳細實例,然而,如上所概述,本發明之方法亦可應用於已經在解碼器中解碼之信號,如其(例如)在PCT/EP2012/077525或PCT/EP2012/077527中所描述,兩者皆被以引用的方式併入本文中。以下實施例描述用於估計音訊編碼器(如圖1中之編碼器100)中之音訊信號中之雜訊的本發明之方法之一實施。更具體言之,將給出用於實施用於估計在增強型話音服務(EVS)編碼器處接收之音訊信號中之雜訊的本發明之方法的EVS寫碼器之信號處理演算法之描述。
假定呈16位元均勻PCM(脈碼調變)格式的20ms長度之音訊樣本之輸入區塊。假定四個取樣率,例如,8 000、16 000、32 000及48 000個樣本/秒,且針對經編碼位元串流的位元率可為5.9、7.2、8.0、9.6、13.2、16.4、24.4、32.0、48.0、64.0或128.0kbit/s。亦可提供AMR-WB(自適應多速率寬頻(編碼解碼器))可互操作模式,其在6.6、8.85、12.65、14.85、15.85、18.25、19.85、23.05或23.85kbit/s的用於經編碼位元串流之位元率下操作。
出於以下描述之目的,以下慣例應用於數學表達: 指示小於或等於x之最大整數:,且;Σ 指示求和;除非另有指定,否則貫穿以下描述,log(x)表示基數10之對數。
編碼器接受按48、32、16或8kHz取樣之滿頻(FB)、超寬頻(SWB)、寬頻(WB)或窄頻(NB)信號。類似地,解碼器輸出可為48、32、16或8kHz FB、SWB、WB或NB。參數R(8、16、32或48)用以指示在編碼器處之輸入取樣速率或在解碼器處之輸出取樣速率。
使用20ms訊框處理輸入信號。編碼解碼器延遲取決於輸入及輸出之取樣速率。對於WB輸入及WB輸出,總演算法延遲為42.875ms。其由一個20ms訊框、輸入及輸出重新取樣濾波器之1.875ms延遲、預見的用於編碼器之10ms、1ms之濾波後延遲及在解碼器處允許較高層變換譯碼之重疊相加運算的10ms組成。對於NB輸入及NB輸出,不使用較高層,但在不存在訊框抹除之情況下及針對音樂信號,使用10ms解碼器延遲改良編碼解碼器性能。對於NB輸入及NB輸出之總演算法延遲為43.875ms──一個20ms訊框、於輸入重新取樣濾波器2ms、於編碼器預見10ms、於輸出重新取樣濾波1.875ms及解碼器中之10ms延遲。若輸出限於層2,則可將編碼解碼器延遲減小10ms。
編碼器之一般功能性包含以下處理區段:共同處理、CELP(程式碼激發之線性預測)寫碼模式、MDCT(修改之離散餘弦變換)寫碼模式、切換寫碼模式、訊框抹除隱藏旁側資訊、DTX/CNG(不連續傳送/舒適雜訊產生器)操作、AMR-WB可互操作選項及通道意識編碼。
根據本實施例,本發明之方法實施於DTX/CNG操作區段中。編碼解碼器裝備有信號活動偵測(SAD)演算法以用於將每一輸入訊框分類為作用中或非作用中。其支援不連續傳送(DTX)操作,其中頻域舒適雜訊產生(FD-CNG)模組用以估算及更新在可變位元率處的背景雜訊之統計。因此,在非作用中信號週期期間之傳送速率係可變的,且取決於背景雜訊的估計之等級。然而,藉由命令行參數,CNG更新速率亦可為固定的。
為了能夠產生類似於實際輸入背景雜訊之假雜訊(就頻譜-時間特性而言),FD-CNG使用雜訊估計演算法追蹤在編碼器輸入端處存在的背景雜訊之能量。接著按SID(靜默插入描述符)訊框之形式將雜訊估計作為參數傳送以更新在非作用中階段期間在解碼器側處在每一頻帶中產生的隨機序列之振幅。
FD-CNG雜訊估計器依賴於混合頻譜分析方法。對應於核心頻寬之低頻率由高解析度FFT分析涵蓋,然而其餘較高頻率由展現400Hz之顯著較低頻譜解析度的CLDFB捕獲。注意,CLDFB亦用作重新取樣工具來減少取樣輸入信號至核心取樣速率。
然而,實務上,SID訊框之大小受到限制。為了
減少描述背景雜訊的參數之數目,平均在叫作結果中之分割區的頻譜帶之群組當中之輸入能量。
1. 頻譜分割區能量
針對FFT與CLDFB頻帶分開來計算分割區能量。對應於FFT分割區之能量與對應於CLDFB分割區之能量接著經串接至大小之單一陣列E FD-CNG,其將充當至以下描述之雜訊估計器的輸入(見「2.FD-CNG雜訊估計」)。
1.1 FFT分割區能量之計算
如下獲得用於涵蓋核心頻寬的頻率之分割區能量
其中及分別為用於第一及第二分析窗之臨界頻帶i中的平均能量。根據使用之組配,捕獲核心頻寬的FFT分割區之數目範圍在17與21之間(見「1.3 FD-CNG編碼器組配」)。使用去加重頻譜權重H de-emph(i)來補償高通濾波,且將其如下定義
1.2 CLDFB分割區能量之計算
將用於高於核心頻寬之頻率的分割區能量計算
為
其中j min(i)及j max(i)分別為第i個分割區中的第一及最後一個CLDFB頻帶之索引,E CLDFB(j)為第j個CLDFB頻帶之總能量,且A CLDFB 為比例因數。常數16指CLDFB中的時槽之數目。CLDFB分割區L CLDFB之數目取決於使用之組配,如以下所描述。
1.3 FD-CNG編碼器組配
下表列出分割區之數目及其針對在編碼器處之不同FD-CNG組配的上邊界。
對於每一分割區i=0,...,L SID-1,f max(i)對應於第i個分
割區中的最後一個頻帶之頻率。每一頻譜分割區中的第一及最後一個頻帶之索引j min(i)及j max(i)可作為核心之組配之函數而導出,如下:
其中f min(0)=50Hz為第一頻譜分割區中的第一頻帶之頻率。因此,FD-CNG產生僅高於50Hz之某些舒適雜訊。
2. FD-CNG雜訊估計
FD-CNG依賴於雜訊估計器追蹤輸入頻譜中存在的背景雜訊之能量。此主要地基於由R.Martin描述之最
小統計演算法(「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」,2001)。然而,為了減小輸入能量{E FD-CNG(0),...,E FD-CNG(L SID-1)}之動態範圍且因此有助於雜訊估計演算法之固定點實施,在雜訊估計前應用非線性變換(見「2.1用於輸入能量之動態範圍壓縮」)。接著對所得雜訊估計使用反變換以恢復原始動態範圍(見「2.3針對估計之雜訊能量的動態範圍擴展」)。
2.1 用於輸入能量之動態範圍壓縮
輸入能量經藉由非線性函數處理且按9位元解析度量化,如下:
2.2 雜訊追蹤
最小統計演算法之詳細描述可在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中發現。其基本上在於針對每一頻譜帶追蹤在給定長度之滑動時間窗上(通常在兩三秒內)的變光滑之功率頻譜之最小值。演算法亦包括偏壓補償以改良雜訊估計之準確性。此外,為了改良時變雜訊之追蹤,可使用在短得多之時間窗上計算的局部最小值來替代原始最小值,限制性條件為其產生估計之雜訊能量的適度增加。在R.Martin之「Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics」(2001)中藉由參數noise_slope_max判定
容許之增加量。
雜訊追蹤器之主要輸出為雜訊估計N MS(i),
i=0,...,L SID-1。為了獲得舒適雜訊中之較平滑轉變,可應用一階遞歸濾波器,亦即,。
此外,平均在最後5個訊框上之輸入能量E MS(i)。
此用以應用關於每一頻譜分割區中之的上限。
2.3 針對估計之雜訊能量的動態範圍擴展
估計之雜訊能量藉由非線性函數處理以補償上文所描述之動態範圍壓縮:
根據本發明,描述用於估計音訊信號中之雜訊的改良之方法,其允許減小雜訊估計器之複雜度,尤其對於使用固定點算術在處理器上處理之音訊/語音信號。本發明之方法允許減小用於音訊/話語信號處理所用之雜訊估計器的動態範圍,例如,在於PCT/EP2012/077527(其指按高頻譜-時間解析度產生舒適雜訊)中或於PCT/EP2012/077527(其指用於按低位元率模型化背景雜訊之舒適雜訊添加)中所描述之環境中。在所描述之情境中,使用基於最小統計演算法操作之雜訊估計器,以用於增強背景雜訊之品質或用於針對有雜訊之語音信號的舒適雜訊產生,例如,在存在背景雜訊之情況下的語音,此為電話呼叫中之非常普通情形及EVS編碼解碼器之受測試種類中之一者。根據標準化之EVS編碼解碼器將使用具有固定算術之處理器,且本發明之方法允許藉由減小用於最小統計
雜訊估計器的信號之動態範圍(藉由處理用於在對數域中且不再在線性域中的音訊信號之能量值)來減小處理複雜度。
雖然已在一設備之上下文中來描述所描述之概
念之一些態樣,但明顯地,此等態樣亦表示對應的方法之描述,其中一區塊或裝置對應於一方法步驟或一方法步驟之一特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或物品或對應設備之特徵的描述。
取決於某些實施要求,本發明之實施例可以硬體
或軟體實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體具有儲存於其上之電子可讀控制信號,該電子可讀控制信號與可規劃電腦系統合作(或能夠合作),使得各別方法被執行。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控
制信號之資料載體,其能夠與可規劃電腦系統合作,使得執行本文中所描述之方法中的一者。
通常,本發明之實施例可實施為具有程式碼之電
腦程式產品,當電腦程式產品在電腦上執行時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於
執行本文中所描述之方法中之一者的電腦程式。
換言之,因此,本發明之方法之一實施例為具有
用於當電腦程式在電腦上執行時執行本文中所描述之方法中的一者的程式碼之電腦程式。
因此,本發明之方法之再一實施例為資料載體
(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中的一者之電腦程式。
因此,本發明之方法之另一實施例為表示用於執
行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如,經組配或經調
適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯裝置。
再一實施例包含其上安裝有用於執行本文中所描述之方法中的一者的電腦程式之電腦。
在一些實施例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器合作,以便執行本文中所描述之方法中的一者。通常,該等方法較佳地由任一硬體設備執行。
上述實施例僅說明本發明之原理。應理解,對本文中所描述之組配及細節的修改及變化將對熟習此項技術者顯而易見。因此,意圖為僅受到接下來之申請專利範圍
之範疇限制,而不受到藉由本文中之實施例之描述解釋所呈現的特定細節限制。
102‧‧‧輸入端
174‧‧‧能量值
178‧‧‧經轉換之能量值
182‧‧‧對數資料
S100-S112‧‧‧步驟
Claims (12)
- 一種用於估計一音訊信號中之雜訊之方法,該方法包含:判定用於該音訊信號之一能量值;將該能量值轉換成log2域;以及在使用固定點算術的一處理器上基於直接在該log2域中之該經轉換能量值估計該音訊信號之一雜訊級。
- 如請求項1之方法,其中估計該雜訊級包含執行一預定義之雜訊估計演算法,如最小統計演算法。
- 如請求項1之方法,其中判定該能量值包含藉由將該音訊信號變換成頻域來獲得該音訊信號之一功率頻譜,將該功率頻譜分群至心理聲學激勵之頻帶內,及聚積在一頻帶內之該等功率頻譜區間以針對每一頻帶形成一能量值,其中每一頻帶之該能量值經轉換成該對數域,且其中基於該對應的經轉換能量值針對每一頻帶估計一雜訊級。
- 如請求項1之方法,其中該音訊信號包含多個訊框,且其中對於每一訊框,該能量值經判定且轉換成該對數域,且基於該經轉換能量值針對一訊框之每一頻帶估計該雜訊級。
- 如請求項1之方法,其中該能量值經轉換成該對數域,如下:
- 如請求項1之方法,其中基於該經轉換能量值估計該雜訊級產生對數資料,且其中該方法進一步包含:將該對數資料直接用於進一步處理,或將該對數資料轉換回該線性域供進一步處理。
- 如請求項6之方法,其中倘若一傳送在該對數域中完成,則將該對數資料直接轉換成傳送資料,以及將該對數資料直接轉換成傳送資料使用一移位函數,連同一查找表或一近似法,例如,。
- 一種非暫時性電腦程式產品,其包含儲存指令之一電腦可讀媒體,該等指令當在一電腦上執行時進行如請求項1之方法。
- 一種雜訊估計器,其包含:一偵測器,其經組配以判定用於該音訊信號之一能量值;一轉換器,其經組配以將該能量值轉換成log2域;以及一估計器,其經組配以基於直接在該log2域中之該 經轉換能量值估計該音訊信號之一雜訊級,該估計器包含使用固定點算術的一處理器。
- 一種音訊編碼器,其包含如請求項9之一雜訊估計器。
- 一種音訊解碼器,其包含如請求項9之一雜訊估計器。
- 一種用於傳送音訊信號之系統,該系統包含:一音訊編碼器,其經組配以基於一接收之音訊信號產生經寫碼音訊信號;以及一音訊解碼器,其經組配以接收該經寫碼音訊信號,以解碼該經寫碼音訊信號,以及輸出該經解碼音訊信號,其中該音訊編碼器及該音訊解碼器中之至少一者包含如請求項9之一雜訊估計器。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178779.6A EP2980801A1 (en) | 2014-07-28 | 2014-07-28 | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201606753A TW201606753A (zh) | 2016-02-16 |
TWI590237B true TWI590237B (zh) | 2017-07-01 |
Family
ID=51224866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104123864A TWI590237B (zh) | 2014-07-28 | 2015-07-23 | 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 |
Country Status (19)
Country | Link |
---|---|
US (3) | US10249317B2 (zh) |
EP (4) | EP2980801A1 (zh) |
JP (3) | JP6408125B2 (zh) |
KR (1) | KR101907808B1 (zh) |
CN (2) | CN112309422B (zh) |
AR (1) | AR101320A1 (zh) |
AU (1) | AU2015295624B2 (zh) |
BR (1) | BR112017001520B1 (zh) |
CA (1) | CA2956019C (zh) |
ES (2) | ES2768719T3 (zh) |
MX (1) | MX363349B (zh) |
MY (1) | MY178529A (zh) |
PL (2) | PL3614384T3 (zh) |
PT (2) | PT3175457T (zh) |
RU (1) | RU2666474C2 (zh) |
SG (1) | SG11201700701TA (zh) |
TW (1) | TWI590237B (zh) |
WO (1) | WO2016016051A1 (zh) |
ZA (1) | ZA201700532B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
GB2552178A (en) * | 2016-07-12 | 2018-01-17 | Samsung Electronics Co Ltd | Noise suppressor |
CN107068161B (zh) * | 2017-04-14 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
RU2723301C1 (ru) * | 2019-11-20 | 2020-06-09 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих |
CN113193927B (zh) * | 2021-04-28 | 2022-09-23 | 中车青岛四方机车车辆股份有限公司 | 一种电磁敏感性指标的获得方法及装置 |
Family Cites Families (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630304A (en) | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
GB2216320B (en) | 1988-02-29 | 1992-08-19 | Int Standard Electric Corp | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5227788A (en) * | 1992-03-02 | 1993-07-13 | At&T Bell Laboratories | Method and apparatus for two-component signal compression |
FI103700B1 (fi) * | 1994-09-20 | 1999-08-13 | Nokia Mobile Phones Ltd | Samanaikainen puheen ja datan siirto matkaviestinjärjestelmässä |
EE03456B1 (et) | 1995-09-14 | 2001-06-15 | Ericsson Inc. | Helisignaalide adaptiivse filtreerimise süsteem kõneselguse parendamiseks mürarikkas keskkonnas |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
JP3538512B2 (ja) * | 1996-11-14 | 2004-06-14 | パイオニア株式会社 | データ変換装置 |
JPH10319985A (ja) * | 1997-03-14 | 1998-12-04 | N T T Data:Kk | ノイズレベル検出方法、システム及び記録媒体 |
JP3357829B2 (ja) * | 1997-12-24 | 2002-12-16 | 株式会社東芝 | 音声符号化/復号化方法 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US7406106B2 (en) * | 2000-04-07 | 2008-07-29 | Broadcom Corporation | Method of sharing information among a plurality of stations in a frame-based communications network |
JP2002091478A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
DE60233032D1 (de) * | 2001-03-02 | 2009-09-03 | Panasonic Corp | Audio-kodierer und audio-dekodierer |
US7110725B2 (en) * | 2001-03-12 | 2006-09-19 | Skyworks Solutions, Inc. | Method and apparatus for multipath signal detection, identification, and monitoring for wideband code division multiple access systems |
US7650277B2 (en) * | 2003-01-23 | 2010-01-19 | Ittiam Systems (P) Ltd. | System, method, and apparatus for fast quantization in perceptual audio coders |
CN1182513C (zh) * | 2003-02-21 | 2004-12-29 | 清华大学 | 基于局部能量加权的抗噪声语音识别方法 |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
US7251322B2 (en) * | 2003-10-24 | 2007-07-31 | Microsoft Corporation | Systems and methods for echo cancellation with arbitrary playback sampling rates |
GB2409389B (en) * | 2003-12-09 | 2005-10-05 | Wolfson Ltd | Signal processors and associated methods |
JP4867914B2 (ja) * | 2004-03-01 | 2012-02-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マルチチャンネルオーディオコーディング |
US7869500B2 (en) * | 2004-04-27 | 2011-01-11 | Broadcom Corporation | Video encoder and method for detecting and encoding noise |
US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
US7634034B2 (en) | 2004-07-01 | 2009-12-15 | Staccato Communications, Inc. | Payload boundary detection during multiband receiver synchronization |
DE102004059979B4 (de) * | 2004-12-13 | 2007-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals |
DE102004063290A1 (de) * | 2004-12-29 | 2006-07-13 | Siemens Ag | Verfahren zur Anpassung von Comfort Noise Generation Parametern |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
BRPI0707135A2 (pt) * | 2006-01-18 | 2011-04-19 | Lg Electronics Inc. | aparelho e método para codificação e decodificação de sinal |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
EP1990799A1 (en) * | 2006-06-30 | 2008-11-12 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
CN101115051B (zh) * | 2006-07-25 | 2011-08-10 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
CN1920947B (zh) * | 2006-09-15 | 2011-05-11 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US7912567B2 (en) * | 2007-03-07 | 2011-03-22 | Audiocodes Ltd. | Noise suppressor |
CN101335003B (zh) * | 2007-09-28 | 2010-07-07 | 华为技术有限公司 | 噪声生成装置、及方法 |
DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
US8331892B2 (en) | 2008-03-29 | 2012-12-11 | Qualcomm Incorporated | Method and system for DC compensation and AGC |
US20090259469A1 (en) * | 2008-04-14 | 2009-10-15 | Motorola, Inc. | Method and apparatus for speech recognition |
EP2301028B1 (en) * | 2008-07-11 | 2012-12-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for calculating a number of spectral envelopes |
BR122021003752B1 (pt) * | 2008-07-11 | 2021-11-09 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio. |
ES2741963T3 (es) * | 2008-07-11 | 2020-02-12 | Fraunhofer Ges Forschung | Codificadores de señal de audio, métodos para codificar una señal de audio y programas informáticos |
US7961125B2 (en) * | 2008-10-23 | 2011-06-14 | Microchip Technology Incorporated | Method and apparatus for dithering in multi-bit sigma-delta digital-to-analog converters |
CN101740033B (zh) * | 2008-11-24 | 2011-12-28 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
US20100145687A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Removing noise from speech |
CN102483916B (zh) * | 2009-08-28 | 2014-08-06 | 国际商业机器公司 | 声音特征量提取装置和声音特征量提取方法 |
CN102054480B (zh) * | 2009-10-29 | 2012-05-30 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
EP3779975B1 (en) * | 2010-04-13 | 2023-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction |
KR101461774B1 (ko) * | 2010-05-25 | 2014-12-02 | 노키아 코포레이션 | 대역폭 확장기 |
EP2395722A1 (en) | 2010-06-11 | 2011-12-14 | Intel Mobile Communications Technology Dresden GmbH | LTE baseband reveiver and method for operating same |
JP5296039B2 (ja) | 2010-12-06 | 2013-09-25 | 株式会社エヌ・ティ・ティ・ドコモ | 移動通信システムにおける基地局及びリソース割当方法 |
US9030619B2 (en) | 2010-12-10 | 2015-05-12 | Sharp Kabushiki Kaisha | Semiconductor device, method for manufacturing semiconductor device, and liquid crystal display device |
RU2586838C2 (ru) * | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
JP5934259B2 (ja) * | 2011-02-14 | 2016-06-15 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオコーデックにおけるノイズ生成 |
US9280982B1 (en) * | 2011-03-29 | 2016-03-08 | Google Technology Holdings LLC | Nonstationary noise estimator (NNSE) |
CN102759572B (zh) * | 2011-04-29 | 2015-12-02 | 比亚迪股份有限公司 | 一种产品的质量检测方法和检测装置 |
KR101294405B1 (ko) * | 2012-01-20 | 2013-08-08 | 세종대학교산학협력단 | 위상 변환된 잡음 신호를 이용한 음성 영역 검출 방법 및 그 장치 |
US8880393B2 (en) * | 2012-01-27 | 2014-11-04 | Mitsubishi Electric Research Laboratories, Inc. | Indirect model-based speech enhancement |
CN103325384A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
CN102664017B (zh) * | 2012-04-25 | 2013-05-08 | 武汉大学 | 一种3d音频质量客观评价方法 |
EP3567629A3 (en) | 2012-06-14 | 2020-01-22 | Skyworks Solutions, Inc. | Power amplifier modules including related systems, devices, and methods |
SG11201500783SA (en) * | 2012-08-03 | 2015-02-27 | Fraunhofer Ges Forschung | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases |
EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
RU2633107C2 (ru) * | 2012-12-21 | 2017-10-11 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных |
RU2650025C2 (ru) | 2012-12-21 | 2018-04-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Генерирование комфортного шума с высоким спектрально-временным разрешением при прерывистой передаче аудиосигналов |
CN103558029B (zh) * | 2013-10-22 | 2016-06-22 | 重庆建设机电有限责任公司 | 一种发动机异响故障在线诊断系统和诊断方法 |
CN103546977A (zh) * | 2013-11-11 | 2014-01-29 | 苏州威士达信息科技有限公司 | 基于HD Radio系统的动态频谱接入方法 |
CN103714806B (zh) * | 2014-01-07 | 2017-01-04 | 天津大学 | 一种结合svm和增强型pcp特征的和弦识别方法 |
US10593435B2 (en) | 2014-01-31 | 2020-03-17 | Westinghouse Electric Company Llc | Apparatus and method to remotely inspect piping and piping attachment welds |
US9628266B2 (en) * | 2014-02-26 | 2017-04-18 | Raytheon Bbn Technologies Corp. | System and method for encoding encrypted data for further processing |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
-
2014
- 2014-07-28 EP EP14178779.6A patent/EP2980801A1/en not_active Ceased
-
2015
- 2015-07-21 SG SG11201700701TA patent/SG11201700701TA/en unknown
- 2015-07-21 EP EP21152041.6A patent/EP3826011A1/en active Pending
- 2015-07-21 CA CA2956019A patent/CA2956019C/en active Active
- 2015-07-21 EP EP15739587.2A patent/EP3175457B1/en active Active
- 2015-07-21 EP EP19202338.0A patent/EP3614384B1/en active Active
- 2015-07-21 CN CN202011194703.4A patent/CN112309422B/zh active Active
- 2015-07-21 AU AU2015295624A patent/AU2015295624B2/en active Active
- 2015-07-21 MX MX2017001241A patent/MX363349B/es unknown
- 2015-07-21 ES ES15739587T patent/ES2768719T3/es active Active
- 2015-07-21 KR KR1020177005256A patent/KR101907808B1/ko active IP Right Grant
- 2015-07-21 WO PCT/EP2015/066657 patent/WO2016016051A1/en active Application Filing
- 2015-07-21 ES ES19202338T patent/ES2850224T3/es active Active
- 2015-07-21 PT PT157395872T patent/PT3175457T/pt unknown
- 2015-07-21 RU RU2017106161A patent/RU2666474C2/ru active
- 2015-07-21 PL PL19202338T patent/PL3614384T3/pl unknown
- 2015-07-21 PT PT192023380T patent/PT3614384T/pt unknown
- 2015-07-21 PL PL15739587T patent/PL3175457T3/pl unknown
- 2015-07-21 CN CN201580051890.1A patent/CN106716528B/zh active Active
- 2015-07-21 JP JP2017504799A patent/JP6408125B2/ja active Active
- 2015-07-21 MY MYPI2017000139A patent/MY178529A/en unknown
- 2015-07-21 BR BR112017001520-0A patent/BR112017001520B1/pt active IP Right Grant
- 2015-07-23 TW TW104123864A patent/TWI590237B/zh active
- 2015-07-27 AR ARP150102374A patent/AR101320A1/es active IP Right Grant
-
2017
- 2017-01-23 ZA ZA2017/00532A patent/ZA201700532B/en unknown
- 2017-01-27 US US15/417,234 patent/US10249317B2/en active Active
-
2018
- 2018-09-19 JP JP2018174338A patent/JP6730391B2/ja active Active
-
2019
- 2019-02-27 US US16/288,000 patent/US10762912B2/en active Active
-
2020
- 2020-07-01 JP JP2020113803A patent/JP6987929B2/ja active Active
- 2020-08-17 US US16/995,493 patent/US11335355B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6673957B2 (ja) | 帯域幅拡張のための高周波数符号化/復号化方法及びその装置 | |
KR101953648B1 (ko) | 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정 | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
WO2014134702A1 (en) | Device and method for reducing quantization noise in a time-domain decoder | |
KR102417047B1 (ko) | 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치 | |
US11043226B2 (en) | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters | |
TW201405549A (zh) | 使用改良機率分布估計之基於線性預測的音訊寫碼技術 | |
RU2752520C1 (ru) | Управление полосой частот в кодерах и/или декодерах | |
JP2021502597A (ja) | 一時的ノイズシェーピング | |
TWI841856B (zh) | 音頻量化器和音頻去量化器及相關方法以及電腦程式 |