TWI797441B - 音訊解碼器、用以決定定義濾波器特性之一組值之裝置、用以提供經解碼音訊表示型態之方法、用以決定定義濾波器特性之一組值之方法、及電腦程式 - Google Patents
音訊解碼器、用以決定定義濾波器特性之一組值之裝置、用以提供經解碼音訊表示型態之方法、用以決定定義濾波器特性之一組值之方法、及電腦程式 Download PDFInfo
- Publication number
- TWI797441B TWI797441B TW109112229A TW109112229A TWI797441B TW I797441 B TWI797441 B TW I797441B TW 109112229 A TW109112229 A TW 109112229A TW 109112229 A TW109112229 A TW 109112229A TW I797441 B TWI797441 B TW I797441B
- Authority
- TW
- Taiwan
- Prior art keywords
- values
- representation
- filter
- scaling
- audio
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 92
- 238000004590 computer program Methods 0.000 title claims description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 285
- 230000005236 sound signal Effects 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims description 179
- 238000010801 machine learning Methods 0.000 claims description 151
- 238000001228 spectrum Methods 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 57
- 238000004364 calculation method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000005284 excitation Effects 0.000 description 12
- 238000013139 quantization Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 9
- 230000015556 catabolic process Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000989 no adverse effect Toxicity 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器包含一濾波器,其用於提供該經解碼音訊表示之一增強型音訊表示。該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值,且該濾波器經組配以使用該等縮放值來縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示。亦描述一種用於決定定義一濾波器之特性的一組值之裝置,該濾波器用於基於一經解碼音訊表示提供一增強型音訊表示。
Description
發明領域
根據本發明之實施例係關於音訊解碼器。
根據本發明之其他實施例係關於用以決定定義濾波器特性之一組值的裝置。
根據本發明之其他實施例係關於用以提供經解碼音訊表示之方法。
根據本發明之其他實施例係關於用以決定定義濾波器特性之一組值的方法。
根據本發明之其他實施例係關於各別電腦程式。
根據本發明之實施例係關於用以增強經寫碼話音之品質的基於實值遮罩之後置濾波器。
根據本發明之實施例大體上係關於用以增強音訊解碼器之經解碼音訊、基於經解碼音訊表示決定定義濾波器特性之一組值的後置濾波器。
發明背景
在下文中,將提供對一些習知解決方案之介紹。
鑒於此情況,需要有在解碼音訊內容時在位元速率、音訊品質與複雜度之間提供經改良權衡之概念。
發明概要
根據本發明之實施例創建一種用於基於經編碼音訊表示提供經解碼音訊表示之音訊解碼器(例如,話音解碼器或通用音訊解碼器,或在例如基於線性預測之解碼模式的話音解碼模式與通用音訊解碼模式之間切換的音訊解碼器,該通用音訊解碼模式例如使用用於縮放經解碼頻譜值之縮放因數的基於譜域表示之寫碼模式)。
濾波器(或後置濾波器)經組配以基於與不同頻率區間或頻率範圍相關聯(例如,具有頻率區間索引或頻率範圍索引k)的經解碼音訊表示之頻譜值,獲得多個縮放值(例如,遮罩值,例如M(k,n)),該等縮放值可例如為實值且可例如非負,且可例如限於預定範圍,並與不同頻率區間或頻率範圍相關聯(例如,具有頻率區間索引或頻率範圍索引k)。
此實施例係基於可使用經解碼音訊信號表示之頻譜值的縮放有效地改良音訊品質之想法,其中基於經解碼音訊表示之頻譜值導出縮放值。已發現,藉由頻譜值之縮放實現的濾波可基於經解碼音訊表示之頻譜值而有效地適於信號特性,且可增強經解碼音訊表示之品質。例如,基於經解碼音訊表示之頻譜值,可以減少量化雜訊之影響的方式調整濾波器設定(其可由縮放值定義)。例如,基於經解碼音訊表示之頻譜值調整縮放值可使用可以計算上高效方式提供縮放值之機器學習結構或神經網路。
特定而言,已發現,即使在量化雜訊大體上與信號相關時,自經解碼音訊表示之頻譜值導出縮放值仍係有利的且可能具有良好結果。因此,該概念可以尤其良好之結果應用於此情況。
總之,上文所描述之音訊編碼器允許使用濾波器增強可實現之音訊品質,濾波器之特性係基於經解碼音訊表示之頻譜值來調整,其中可藉由使用縮放值縮放頻譜值來例如以高效方式執行濾波操作。因此,可改良收聽印象,其中無需依賴於任何額外旁側資訊以控制濾波器之調整。實際上,不論用於生成音訊信號之經編碼及經解碼表示的寫碼方案,及一或多個先前經解碼訊框及/或一或多個隨後經解碼訊框之可能經解碼頻譜值如何,濾波器之調整可僅僅基於當前經處理訊框之經解碼頻譜值。
在音訊解碼器之較佳實施例中,濾波器適於使用可組配處理結構(例如,「機器學習」結構,如神經網路)以便提供縮放值,該結構之組配係基於機器學習演算法。
藉由使用可組配處理結構,如機器學習結構或神經網路,可基於定義可組配處理結構之功能性的係數容易地調整濾波器之特性。因此,通常可能取決於經解碼音訊表示之頻譜值在廣泛範圍上調整濾波器之特性。因此,有可能在許多不同情形下獲得經改良音訊品質。
在音訊解碼器之較佳實施例中,濾波器經組配以僅僅基於多個頻率區間或頻率範圍中之經解碼音訊表示的頻譜值來決定縮放值(例如,在自頻譜值導出縮放值時無需使用任何額外傳信資訊)。
使用此概念,有可能獨立於旁側資訊之存在來改良音訊品質。
由於使用了經解碼音訊信號(經解碼音訊表示之頻譜值)之一致及通用表示,計算及結構複雜度可保持在相當低的水平,此與用於獲得經編碼及經解碼表示之寫碼技術無關。在此情況下,避免了對特定旁側資訊值之複雜及特定運算。另外,大體上有可能使用通用處理結構(諸如神經網路)基於經解碼音訊表示之頻譜值導出縮放值,該結構使用有限數目個不同計算功能性(諸如經縮放求和及激發函數之評估)。
在音訊解碼器之較佳實施例中,濾波器經組配以根據下式來獲得增強型音訊表示之量值(其可例如描述絕對值或振幅或範數),
其中M(k,n)為縮放值,其中k為頻率索引(例如,指定不同頻率區間或頻率範圍),其中n為時間索引(例如,指定不同重疊或非重疊訊框),且其中為經解碼音訊表示之頻譜值的量值。量值可為藉由對經解碼音訊信號施加如短期傅里葉變換(STFT)、FFT或MDCT之時間頻率變換所獲得的頻譜值之量值、絕對值或任何範數。
替代地,濾波器可經組配以根據下式獲得增強型音訊表示之值 ,
其中M(k,n)為縮放值,其中k為頻率索引(例如,指定不同頻率區間或頻率範圍),其中n為時間索引(例如,指定不同重疊或非重疊訊框),且其中為經解碼音訊表示之頻譜值。
已發現,可以良好效率執行增強型音訊表示之量值或增強型音訊表示之(通常為複值)值的此簡單導出,且該導出仍顯著改良音訊品質。
在音訊解碼器之較佳實施例中,濾波器經組配以獲得縮放值,使得縮放值帶來對經解碼音訊信號表示之一或多個頻譜值,或基於經解碼音訊信號表示之頻譜值的一或多個經預處理頻譜值之縮放(或在一些情況下為放大)。
藉由執行此縮放(縮放可係較佳的,但非必要)來放大或衰減至少一個頻譜值(且其可通常亦導致對至少一個頻譜值之衰減),可以高效方式塑形經解碼音訊表示之頻譜。例如,藉由允許藉由縮放來進行放大及衰減兩者,在一些情況下亦可減少可由數字表示之有限精度引起的偽影。此外,藉由避免將縮放值限於小於一之值,縮放值之調整視情況包含額外自由度。因此,可實現音訊品質之良好增強。
在音訊解碼器之較佳實施例中,濾波器包含經組配以基於描述經解碼音訊表示(例如,描述經解碼音訊表示之經變換表示的量值)之多個頻譜值提供縮放值的神經網路或機器學習結構,其中頻譜值與不同頻率區間或頻率範圍相關聯。
已發現,在此濾波器中使用神經網路或機器學習結構帶來了相對高之效率。亦已發現,在輸入至神經網路或機器學習結構中之頻譜值的數目相對高之情況下,神經網路或機器學習結構可容易地處置該輸入量之經解碼音訊表示的頻譜值。已發現,神經網路或機器學習結構可良好地處置此大量輸入信號或輸入量,且其亦可提供大量不同縮放值作為輸出量。換言之,已發現,神經網路或機器學習結構良好地適於基於相對大量頻譜值導出相對大量縮放值,而不需要過度計算資源。因此,可以極精確方式將縮放值調整至經解碼音訊表示之頻譜值而無過多計算負載,其中在調整濾波特性時可考慮經解碼音訊表示之頻譜的細節。又,已發現,可以合理工作量決定提供縮放值之神經網路或機器學習結構的係數,且神經網路或機器學習結構提供實現縮放值之精確決定的充分自由度。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構之輸入信號表示經解碼音訊表示之頻譜值的對數量值、振幅或範數,其中頻譜值與不同頻率區間或頻率範圍相關聯。
已發現,將頻譜值之對數量值、頻譜值之振幅或頻譜值之範數提供為神經網路或機器學習結構之輸入信號係有利的。已發現,頻譜值之正負號或相位對於調整濾波器,亦即決定縮放值而言較不重要。特定而言,已發現,對數化經解碼音訊表示之頻譜值的量值尤其有利,此係由於可減少動態範圍。已發現,在相比於頻譜值自身時,神經網路或機器學習結構可通常較好地處置頻譜值之對數化量值,此係由於頻譜值通常具有高動態範圍。藉由使用對數化值,亦有可能在(人工)神經網路或機器學習結構中使用簡化數字表示,此係由於常常不必使用浮點數字表示。實際上,有可能設計使用固定點數字表示之神經網路或機器學習結構,其顯著減少實施工作量。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構之輸出信號表示縮放值(例如,遮罩值)。
藉由將縮放值提供為神經網路或機器學習結構之輸出信號(或輸出量),可將實施工作量保持在相當低的水平。例如,易於實施提供相對大量縮放值之神經網路或機器學習結構。例如,可使用減少實施工作量之均質結構。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構經訓練,以限制、減少或最小化多個目標縮放值(例如,IRM(k,n))與使用神經網路或使用機器學習結構獲得之多個縮放值(例如,M(k,n))之間的偏差(例如,均方誤差;例如MSEMA
)。
藉由以此方式訓練神經網路或機器學習結構,可實現藉由使用縮放值縮放經解碼音訊信號表示之頻譜值(或其經預處理版本)獲得之增強型音訊表示提供良好收聽印象。例如,可例如基於對編碼器側有損處理之瞭解容易地決定目標縮放值。因此,可以極少工作量決定哪些縮放值最佳地將經解碼音訊表示之頻譜值近似至理想增強型音訊表示(其可例如等於音訊編碼器之輸入音訊表示)。換言之,藉由例如針對多個不同音訊內容或不同類型之音訊內容訓練神經網路或機器學習結構,以限制、減少或最小化多個目標縮放值與使用神經網路或使用機器學習結構獲得之多個縮放值之間的偏差,可實現神經網路或機器學習結構提供甚至用於不同音訊內容或不同類型之音訊內容的適當縮放值。此外,藉由將目標縮放值與使用神經網路或使用機器學習結構獲得之縮放值之間的偏差用作最佳化量,可使訓練程序之複雜度保持為較小且可避免數值難題。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構經訓練,以限制、減少或最小化目標量譜、目標振幅頻譜、目標絕對頻譜或目標範數頻譜(例如例如訓練音訊信號之原始頻譜)與使用經處理(例如,經解碼,例如經量化、經編碼及經解碼)頻譜(其係例如基於目標量譜及/或訓練音訊信號)之縮放(例如,頻率相依性縮放)獲得的(增強型)量譜、振幅頻譜、絕對頻譜或範數頻譜之間的偏差(例如,MSESA
),該經處理頻譜使用由神經網路或機器學習結構提供之縮放值(其中神經網路之輸入信號例如係基於經解碼頻譜)。
藉由使用此訓練方法,可通常確保增強型音訊表示之良好品質。特定而言,已發現,在經解碼音訊表示相比於用於訓練之音訊內容表示不同音訊內容時,神經網路或機器學習結構亦提供適當縮放係數。此外,已發現,在量譜或振幅頻譜或絕對頻譜或範數頻譜與所要(目標)量譜或(目標)振幅頻譜或(目標)絕對頻譜或(目標)範數頻譜充分良好一致時,增強型音訊表示經感知為具有良好品質。
在音訊之較佳實施例中,神經網路或機器學習結構經訓練,使得用於經解碼音訊信號表示之頻譜分解的一或多個頻譜值,或用於基於經解碼音訊信號表示之頻譜分解的頻譜值之一或多個經預處理頻譜值之縮放處於在0與預定最大值之間的範圍內。
已發現,限制縮放(或縮放值)有助於避免頻譜值之過度放大。已發現,一或多個頻譜值之極高放大(或縮放)可引起聽覺偽影。又,已發現,例如若經解碼音訊表示之頻譜值極小或甚至等於零,則可在訓練期間實現過大縮放值。因此,可藉由使用此限制方法改良增強型音訊表示之品質。
在音訊解碼器之較佳實施例中,最大值大於1(且可例如為2、5或10)。
已發現,此縮放(或縮放值)限制帶來了尤其良好之結果。例如,藉由允許放大(例如,藉由允許大於一之縮放或縮放值),亦可部分補償將由「頻譜孔」引起之偽影。同時,可藉由衰減(例如,使用小於一之縮放或縮放值)限制過度雜訊。因此,藉由縮放可獲得極靈活之信號改良。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構經訓練,使得用於經解碼音訊信號表示之頻譜分解的一或多個頻譜值,或用於基於經解碼音訊信號表示之頻譜分解的頻譜值之一或多個經預處理頻譜值之縮放(或縮放值)限於2,或限於5,或限於10,或限於大於1之預定值。
藉由使用此方法,可在允許放大的同時將偽影保持在相當低的水平(其可例如有助於避免「頻譜孔」)。因此,可獲得良好收聽印象。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構經訓練,使得縮放值限於2,或限於5,或限於10,或限於大於1之預定值。
藉由將縮放值限於此範圍,可實現增強型音訊表示之尤其良好品質。
在音訊解碼器之較佳實施例中,神經網路或機器學習結構之輸入特徵的數目(例如,516或903)比神經網路或機器學習結構之輸出值的數目(例如,129)大至少2倍。
已發現,神經網路或機器學習結構使用相對大量之輸入特徵帶來尤其可靠之縮放值,該等輸入特徵之數目大於神經網路或機器學習結構之輸出值(或輸出信號)之數目。特定而言,藉由選擇神經網路之相對大量輸入特徵,有可能考慮來自先前訊框及/或之後訊框之資訊,其中已發現,考慮此等額外輸入特徵通常改良縮放值之品質且因此改良增強型音訊表示之品質。
在音訊解碼器之較佳實施例中,濾波器經組配以將神經網路或機器學習結構之輸入特徵(例如,由輸入信號表示)(例如,使用短期傅里葉變換獲得之頻譜值的量值)歸一化為預定均值(例如,零之均值)及/或預定方差(例如,單位方差)或標準偏差。
已發現,歸一化神經網路或機器學習結構之輸入特徵使縮放值之提供獨立於經解碼音訊表示之音量或響度或強度。因此,神經網路或機器學習結構可「聚焦」於經解碼音訊表示之頻譜的結構特性且不受音量改變影響(或顯著影響)。此外,藉由執行此歸一化,可避免神經網路之節點過度飽和。此外,減少了動態範圍,此有助於使神經網路或機器學習結構內使用之數字表示保持有效。
在音訊解碼器之較佳實施例中,神經網路包含輸入層、一或多個隱藏層及輸出層。
已證實神經網路之此結構有利於本申請案。
在音訊解碼器之較佳實施例中,一或多個隱藏層將經校正線性單位用作激發函數。
已發現,將經校正線性單位用作激發函數允許以良好可靠性基於經解碼音訊表示之頻譜值來提供縮放向量。
在音訊解碼器之較佳實施例中,輸出層將(未經限界)經校正線性單位或經限界之經校正線性單位或S型函數(例如,經縮放S型函數)用作激發函數。
藉由在輸出層中將經校正線性單位或經限界之經校正線性單位或S型函數用作激發函數,可以可靠方式獲得縮放值。特定而言,使用經限界之經校正線性單位或S型函數允許將縮放值限於所要範圍,如上文所論述。因此,可以高效且可靠方式獲得縮放值。
已發現,短期傅里葉變換係數構成經解碼音訊表示之尤其有意義表示。例如,已認識到,相比MDCT係數,在一些情況下可由神經網路或機器學習結構較好地使用短期傅里葉變換係數(即使MDCT係數可由音訊解碼器用於重建構經解碼頻譜表示)。
在音訊解碼器之較佳實施例中,濾波器經組配以導出對數量值、振幅、絕對或範數值(例如,基於短期傅里葉變換係數),並基於對數量值、振幅、絕對或範數值決定縮放值。
已發現,基於非負值,如對數量值、振幅值、絕對值或範數值導出縮放值係高效的,此係由於考慮相位將顯著增大計算需求而不會帶來縮放值之任何實質改良。因此,移除頻譜值(例如,藉由短期傅里葉變換所獲得)之正負號及通常亦移除相位帶來複雜度與音訊品質之間的良好權衡。
在音訊解碼器之較佳實施例中,濾波器經組配以基於當前訊框之經解碼音訊表示的與不同頻率區間或頻率範圍相關聯之頻譜值,且基於當前訊框之前的一或多個訊框(例如,過去上下文訊框)之經解碼音訊表示的與不同頻率區間或頻率範圍相關聯之頻譜值,決定與當前訊框(例如,經解碼音訊表示之當前訊框,或短期傅里葉變換之當前訊框)相關聯之多個縮放值。
然而,已發現,考慮當前訊框之前的一或多個訊框之頻譜值有助於改良縮放向量。此係由於許多類型之音訊內容包含後續訊框之間的時間相關性。因此,神經網路或機器學習結構在決定縮放值時可例如考慮頻譜值之時間演進。例如,神經網路或機器學習結構可調整縮放值,以避免(或抵消)經縮放頻譜值(例如,增強型音訊表示中)隨時間推移之過度改變。
在音訊解碼器之較佳實施例中,濾波器經組配以基於當前訊框之後的一或多個訊框(例如,將來上下文訊框)之經解碼音訊表示的與不同頻率區間或頻率範圍相關聯之頻譜值,決定與當前訊框(例如,經解碼音訊表示之當前訊框,或短期傅里葉變換之當前訊框)相關聯的多個縮放值。
藉由考慮當前訊框之後的一或多個訊框之經解碼音訊表示的頻譜值,亦可利用後續訊框之間的相關性,且通常可改良縮放值之品質。
根據本發明之實施例創建一種用於決定定義濾波器(例如,基於神經網路之濾波器,或基於另一機器學習結構之濾波器)之特性的一組值(例如,神經網路之係數,或另一機器學習結構之係數)的裝置,該濾波器用於基於經解碼音訊表示(其可例如由音訊解碼提供)提供增強型音訊表示(例如,)。
該裝置經組配以決定定義濾波器之特性的該組值,使得由濾波器基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值提供的縮放值近似目標縮放值(其可係基於所要增強型音訊表示與經解碼音訊表示之比較計算得到)。
替代地,該裝置經組配以決定定義濾波器之特性的該組值,使得由濾波器基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值,且使用基於經解碼音訊表示獲得之縮放值所獲得的頻譜近似目標頻譜(其可對應於所要增強型音訊表示,且可等於包含音訊編碼器及包括濾波器之音訊解碼器的處理鏈中之音訊編碼器的輸入信號)。
使用此裝置,可以中等工作量獲得定義用於上文所提及之音訊解碼器中的濾波器之特性的一組值。特定而言,可決定可為神經網路之係數或另一機器學習結構之係數的定義濾波器特性之該組值,使得濾波器使用產生良好音訊品質且在經解碼音訊表示上改良增強型音訊表示之縮放值。例如,可基於多個訓練音訊內容或參考音訊內容執行定義濾波器特性之該組值的決定,其中可自參考音訊內容導出目標縮放值或目標頻譜。然而,已發現,定義濾波器特性之該組值通常亦良好地適於不同於參考音訊內容之音訊內容,條件為參考音訊內容至少在一定程度上表示待由上文所提及之音訊解碼器解碼的音訊內容。此外,已發現,將由濾波器提供之縮放值或由濾波器獲得之頻譜用作最佳化量帶來定義濾波器特性之一組可靠值。
在裝置之較佳實施例中,裝置經組配以訓練為濾波器的部分,且提供用於縮放經解碼音訊信號之量值或經解碼音訊信號之頻譜值的縮放值之機器學習結構(例如,神經網路),以減少或最小化多個目標縮放值(例如,IRM(k,n))與多個縮放值(例如,M(k,n))之間的偏差(例如,均方誤差;例如MSEMA
),多個縮放值係使用神經網路基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值所獲得。
藉由使用目標縮放值訓練機器學習結構,機器學習結構可經設計(或組配)成至少部分地補償處理鏈中之信號降級,目標縮放值可例如係基於在包含音訊解碼器(其導出經解碼音訊表示)之處理鏈中經編碼及經解碼的原始音訊內容所導出。例如,可決定目標縮放值,使得目標縮放值以某種方式縮放經解碼音訊表示,使得經解碼音訊表示近似輸入至處理鏈中(例如,輸入至音訊編碼器中)之(原始)音訊表示。因此,由機器學習結構提供之縮放值可具有高度可靠性,且可適於改良經歷處理鏈之音訊內容的重建構。
在較佳實施例中,裝置經組配以訓練機器學習結構(例如,神經網路),以減少或最小化目標(量值)頻譜(例如,例如訓練音訊信號之原始頻譜)與(增強型)頻譜(或量譜)之間的偏差(例如,MSESA
),(增強型)頻譜係使用經處理(例如,經解碼,例如經量化、經編碼及經解碼)頻譜(其係例如基於目標量譜及/或訓練音訊信號)之縮放(例如,頻率相依性縮放)獲得的,經處理頻譜使用由機器學習結構(例如,神經網路)提供之縮放值。例如,機器學習結構或神經網路之輸入信號係基於經解碼頻譜。
已發現,機器學習結構之此訓練亦產生允許補償信號處理鏈(其可包含音訊編碼及音訊解碼)中之信號降級的縮放值。例如,目標頻譜可為輸入於包含(有損)音訊編碼器及提供經解碼音訊表示之音訊解碼器的處理鏈中之參考音訊內容或訓練音訊內容的頻譜。因此,機器學習結構可經訓練,使得縮放值縮放經解碼音訊表示以近似輸入至音訊編碼器中之參考音訊內容。因此,機器學習結構可經訓練以提供有助於克服(有損)處理鏈內的降級之縮放值。
在較佳實施例中,裝置經組配以訓練機器學習結構(例如,神經網路),使得用於經解碼音訊信號表示之頻譜值,或用於基於經解碼音訊信號表示之頻譜值的一或多個經預處理頻譜值之縮放(或縮放值)處於在0與2之間的範圍內,或處於在0與5之間的範圍內,或處於在0與10之間的範圍內,或處於在0與最大值(其可例如大於1)之間的範圍內。
藉由將縮放限於預定範圍(例如,在零與通常可大於一之預定值之間),有可能避免可例如由過大縮放值引起之偽影。又,應注意,限制縮放值(其可提供為神經網路或機器學習結構之輸出信號)允許神經網路或機器學習結構之輸出階段(例如,輸出節點)之相對簡單實施。
在裝置之較佳實施例中,裝置經組配以訓練機器學習結構(例如,神經網路),使得用於經解碼音訊信號表示之頻譜值,或用於基於經解碼音訊信號表示之頻譜值的一或多個經預處理頻譜值之量值縮放(或縮放值)限於0與預定最大值之間的範圍內。
藉由將量值縮放(或縮放值)限於零與預定最大值之間的範圍內,避免了將由過強量值縮放引起之降級切換。
在音訊解碼器之較佳實施例中,最大值大於1(且可例如為2、5或10)。
藉由允許量值縮放之最大值大於一,可藉由使用縮放值之縮放來實現衰減及放大兩者。已展示,此概念尤其靈活且帶來尤其良好之收聽印象。
本發明之實施例創建一種用於基於經編碼音訊表示提供經解碼音訊表示的方法。
該方法包含基於與不同頻率區間或頻率範圍相關聯(例如,具有頻率區間索引或頻率範圍索引k)的經解碼音訊表示之頻譜值,獲得多個縮放值(例如,遮罩值,例如M(k,n)),該等縮放值可例如為實值且可例如非負,且可例如限於預定範圍,並與不同頻率區間或頻率範圍相關聯(例如,具有頻率區間索引或頻率範圍索引k)。
此方法係基於與上文所描述之裝置相同的考慮。又,應注意,該方法可由本文中亦關於裝置所描述之特徵、功能性及細節中之任一者補充。此外,應注意,該方法可由此等特徵、功能性及細節中之任一者個別地及組合地補充。
一實施例創建一種用於決定定義濾波器(例如,基於神經網路之濾波器,或基於另一機器學習結構之濾波器)的特性之一組值(例如,神經網路之係數,或另一機器學習結構之係數)的方法,該濾波器用於基於經解碼音訊表示(其可例如由音訊解碼提供)提供增強型音訊表示(例如,)。
該方法包含決定定義濾波器特性之該組值,使得由濾波器基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值提供之縮放值近似目標縮放值(其可係基於所要增強型音訊表示與經解碼音訊表示之比較計算得到)。
替代地,該方法包含決定定義濾波器特性之該組值,使得由濾波器基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值,且使用基於經解碼音訊表示獲得之縮放值所獲得的頻譜近似目標頻譜(其可對應於所要增強型音訊表示,且可等於包含音訊編碼器及包括濾波器之音訊解碼器之處理鏈中之音訊編碼器的輸入信號)。
此方法係基於與上文所描述之裝置相同的考慮。然而,應注意,該方法可由本文中亦關於裝置所描述之特徵、功能性及細節中之任一者補充。此外,該方法可由特徵、功能性及細節個別地及組合地補充。
根據本發明之實施例創建一種電腦程式,其用於在電腦程式運行於電腦上時執行本文中所描述之方法。
較佳實施例之詳細說明1 ) 根據圖 1 之音訊解碼器
圖1展示根據本發明之實施例的音訊解碼器100之示意性方塊圖。音訊解碼器100經組配以接收經編碼音訊表示110,並基於其提供可為經解碼音訊表示之增強型形式的增強型音訊表示112。
音訊解碼器100視情況包含解碼器核心120,其可接收經編碼音訊表示110,並基於其提供經解碼音訊表示122。音訊解碼器進一步包含濾波器130,其經組配以基於經解碼音訊表示122提供增強型音訊表示112。可被視為後置濾波器之濾波器130經組配以基於經解碼音訊表示之頻譜值132獲得與不同頻率區間或頻率範圍相關聯之多個縮放值136,該等頻譜值亦與不同頻率區間或頻率範圍相關聯。例如,濾波器130可包含縮放值決定或縮放值決定器134,其接收經解碼音訊表示之頻譜值132且提供縮放值136。濾波器130進一步經組配以使用縮放值136縮放經解碼音訊信號表示之頻譜值或其經預處理版本,以獲得增強型音訊表示112。
應注意,用以獲得縮放值的經解碼音訊表示之頻譜值可相同於實際上經縮放(例如,藉由縮放或縮放器138)之頻譜值,或可不同於實際上經縮放之頻譜值。例如,經解碼音訊表示之頻譜值的第一子集可用以決定縮放值,且頻譜或振幅頻譜或絕對頻譜或範數頻譜之頻譜值的第二子集可實際上經縮放。第一子集與第二子集可相等或可部分重疊,或可甚至完全不同(無任何共同頻譜值)。
關於音訊解碼器100之功能性,可稱音訊解碼器100基於經編碼音訊表示提供經解碼音訊表示122。由於編碼(亦即,提供經編碼音訊表示)通常係有損的,因此例如由解碼器核心提供之經解碼音訊表示122在相比於原始音訊內容(其可被饋送至提供經編碼音訊表示110之音訊編碼器中)時可包含一些降級。應注意,例如由解碼器核心提供之經解碼音訊表示122可呈任何形式,且可例如由解碼器核心以時域表示形式或譜域表示形式提供。譜域表示可例如包含(離散)傅里葉變換係數或(離散)MDCT係數等。
濾波器130可例如獲得(或接收)表示經解碼音訊表示之頻譜值。然而,由濾波器130使用之頻譜值在相比於由解碼器核心提供之頻譜值時可例如具有不同類型。例如,濾波器130可將傅里葉係數用作頻譜值,而解碼器核心120最初僅提供MDCT係數。又,濾波器130可視情況例如藉由傅里葉變換或MDCT變換等(例如,短時傅里葉變換STFT)自經解碼音訊表示120之時域表示導出頻譜值。
縮放值決定134自經解碼音訊表示之多個頻譜值(例如,自經解碼音訊表示導出)導出縮放值136。例如,縮放值決定134可包含神經網路或機器學習結構,其接收頻譜值132並導出縮放值136。此外,可藉由根據縮放值136縮放經解碼音訊表示之頻譜值(其可等於或不同於由縮放值決定134使用之頻譜值)來獲得增強型音訊表示112之頻譜值。例如,縮放值136可定義不同頻率區間或頻率範圍中之頻譜值的縮放。此外,應注意,縮放136可對複值頻譜值或實值頻譜值(例如,振幅值或量值或範數值)進行運算。
因此,當基於經解碼音訊表示之頻譜值132使用縮放值136之適當決定時,縮放138可抵消由用以提供經編碼音訊表示110之有損編碼引起的音訊品質降級。
例如,縮放138可例如藉由選擇性地衰減包含高量化雜訊之頻譜區間或頻譜範圍而減少量化雜訊。替代地或另外,縮放138亦可帶來隨時間及/或頻率推移之頻譜平滑化,此亦可有助於減少量化雜訊及/或改良感知印象。
然而,應注意,根據圖1之音訊解碼器100可視情況由本文中所揭示之特徵、功能性及細節中之任一者個別地及組合地補充。2 ) 根據圖 2 之裝置
圖2展示用以決定定義濾波器(例如,基於神經網路之濾波器,或基於另一機器學習結構之濾波器)之特性的一組值(例如,神經網路之係數或另一機器學習結構之係數)的裝置200之示意性方塊圖。
根據圖2之裝置200經組配以接收經解碼音訊表示210,並基於其提供定義濾波器之一組值212,其中定義濾波器之該組值212可例如包含神經網路之係數或另一機器學習結構之係數。視情況,裝置200可接收目標縮放值214及/或目標頻譜資訊216。然而,裝置200可視情況自身生成目標縮放值及/或目標頻譜資訊216。
應注意,目標縮放值可例如描述使經解碼音訊表示210接近(或更接近)理想(未失真)狀態之縮放值。例如,目標縮放值可係基於對參考音訊表示之瞭解決定,經解碼音訊表示210係藉由編碼及解碼自參考音訊表示導出。例如,可自對參考音訊表示之頻譜值的瞭解及對經解碼音訊表示之頻譜值的瞭解導出哪個縮放使增強型音訊表示(其係使用縮放基於經解碼音訊表示之頻譜值而獲得)近似參考音訊表示。
此外,目標頻譜資訊216可例如係基於對參考音訊表示之瞭解,經解碼音訊表示係藉由編碼及解碼自參考音訊表示導出。例如,目標頻譜資訊可呈參考音訊表示之頻譜值的形式。
如圖2中可見,裝置200可視情況包含自經解碼音訊表示210導出經解碼音訊表示210之頻譜值的頻譜值決定。頻譜值決定經指定為220,且經解碼音訊表示之頻譜值經指定為222。然而,應注意,頻譜值決定220應被視為係可選的,此係由於可直接以頻譜值形式提供經解碼音訊表示210。
裝置200亦包含定義濾波器之一組值的決定230。決定230可接收或獲得經解碼音訊表示之頻譜值222,並基於其提供定義濾波器之該組值212。決定230可視情況使用目標縮放值214及/或目標頻譜資訊216。
關於裝置200之功能性,應注意,裝置200經組配以獲得經解碼音訊表示之頻譜值222,其與不同頻率區間或頻率範圍相關聯。此外,決定230可經組配以決定定義濾波器特性之該組值212,使得由濾波器基於經解碼音訊表示之與不同頻率區間或頻率範圍相關聯的頻譜值222提供的縮放值近似目標縮放值(例如,目標縮放值214)。如所提到,可基於所要增強型音訊表示與經解碼音訊表示之比較來計算目標縮放值,其中所要增強型音訊表示可對應於之前提到之參考音訊表示。換言之,決定230可決定及/或最佳化定義濾波器之(例如,基於神經網路之濾波器或基於另一機器學習結構之濾波器之)特性的一組值(例如,神經網路之一組係數或另一機器學習結構之一組係數),使得此濾波器基於經解碼音訊表示之頻譜值提供近似目標縮放值214之縮放值。定義濾波器之該組值214的決定可使用單遍次前向計算來進行,但可通常使用迭代最佳化來執行。然而,可使用用於神經網路或電腦學習結構之任何已知訓練程序。
替代地,定義濾波器之該組值212的決定230可經組配以決定定義濾波器特性之該組值212,使得由濾波器基於經解碼音訊表示之頻譜值(其與不同頻率區間或頻率範圍相關聯)且使用基於經解碼音訊表示獲得之縮放值所獲得的頻譜近似目標頻譜(其可例如由目標頻譜資訊216所描述)。換言之,決定230可選擇定義濾波器之該組值212,使得經解碼音訊表示210之頻譜值的經濾波版本近似由目標頻譜資訊216描述之頻譜值。總之,裝置200可決定定義濾波器之該組值212,使得濾波器至少部分地使經解碼音訊表示之頻譜值近似「理想」或「參考」或「目標」頻譜值。出於此目的,裝置通常使用表示不同音訊內容之經解碼音訊表示。藉由基於不同音訊內容(或不同類型之音訊內容)決定定義濾波器之該組值212,可將定義濾波器之該組值212選擇成使得對於不同於用以訓練定義濾波器之該組值212的參考音訊內容之音訊內容,濾波器相當良好地執行。
因此,可實現定義濾波器之該組值212良好地適於增強音訊解碼器,例如根據圖1之音訊解碼器100中獲得之經解碼音訊表示。換言之,定義濾波器之該組值212可用於例如音訊解碼器100中,以定義縮放值決定134之操作(且因此定義濾波器130之操作)。
然而,應注意,根據圖2之裝置200可視情況由本文中所描述之特徵、功能性及細節中之任一者個別地及組合地補充。3) 根據圖 3 之音訊解碼器 300
圖3展示根據本發明之另一實施例的音訊解碼器300之示意性方塊圖。音訊解碼器300經組配以接收可對應於經編碼音訊表示110之經編碼音訊表示310,並基於其提供可對應於增強型音訊表示112之增強型音訊表示312。音訊解碼器300包含解碼器核心320,其可對應於解碼器核心120。解碼器核心320基於經編碼音訊表示310提供經解碼音訊表示322(其可對應於經解碼音訊表示122)。經解碼音訊表示可呈時域表示,但亦可呈譜域表示。
視情況,音訊解碼器300可包含轉換324,其可接收經解碼音訊表示322並基於經解碼音訊表示322提供譜域表示326。若經解碼音訊表示並不呈與不同頻率區間或頻率範圍相關聯之頻譜值的形式,則此轉換324可例如係有用的。例如,若經解碼音訊表示322呈時域表示,則轉換324可將經解碼音訊表示322轉換成多個頻譜值。然而,在解碼器核心320並不提供可由後續處理階段使用之頻譜值的情況下,轉換324亦可執行自第一類型之譜域表示至第二類型之譜域表示的轉換。譜域表示326可例如包含如圖1之音訊解碼器100中所示之頻譜值132。
此外,音訊解碼器300包含縮放值決定334,其例如包含絕對值決定360、對數計算370及神經網路或機器學習結構380。縮放值決定334基於可對應於頻譜值132之頻譜值326提供縮放值336。
音訊解碼器300亦包含縮放338,其可對應於縮放138。在縮放中,取決於由神經網路/機器學習結構380提供之縮放值336來縮放經解碼音訊表示之頻譜值或其經預處理版本。因此,縮放338提供增強型音訊表示。
縮放值決定334及縮放338可被視為濾波器或「後置濾波器」。
在下文中,將描述一些其他細節。
縮放值決定亦包含對數計算370,其接收經解碼音訊表示之譜域表示的絕對值362(例如,頻譜值之多個絕對值),並基於其提供經解碼音訊表示之譜域表示的對數化絕對值372。例如,對數化絕對值372可經指定為log10
應注意,絕對值決定360可例如決定譜域表示326之多個頻譜值的絕對值或量值或範數值,使得例如移除頻譜值之正負號或相位。對數計算例如計算常用對數(以10為底)或自然對數,或任何其他可適當之對數。又,應注意,對數計算可視情況由減少頻譜值362之動態範圍的任何其他計算替換。此外,應已知對數計算370可包含負值及/或正值限制,使得對數化絕對值372可限於合理的值範圍。
縮放值決定334亦包含神經網路或機器學習結構380,其接收對數化絕對值372並基於其提供縮放值332。神經網路或機器學習結構380可例如由定義濾波器特性之一組值382參數化。該組值可例如包含機器學習結構之係數或神經網路之係數。例如,該組值382可包含神經網路之分支權重,且視情況亦包含激發函數之參數。該組值382可例如由裝置200決定,且該組值382可例如對應於該組值212。
此外,神經網路或機器學習結構380亦可視情況包含用於當前訊框之前的一或多個訊框及/或用於當前訊框之後的一或多個訊框的經解碼音訊表示之譜域表示的對數化絕對值。換言之,神經網路或機器學習結構380可不僅使用與當前經處理訊框(其中應用縮放值)相關聯的頻譜值之對數化絕對值,亦可考慮一或多個之前訊框及/或一或多個後續訊框之頻譜值的對數化絕對值。因此,與給定(當前經處理)訊框相關聯之縮放值可係基於給定(當前經處理)訊框之頻譜值,且亦基於一或多個之前訊框及/或一或多個後續訊框之頻譜值。
例如,經解碼音訊表示之譜域表示的對數化絕對值(指定為372)可被應用於神經網路或機器學習結構380之輸入(例如,輸入神經元)。縮放值336可由神經網路或機器學習結構380之輸出(例如,由輸出神經元)提供。此外,神經網路或機器學習結構可根據定義濾波器特性之該組值382執行處理。
縮放338可接收縮放值336,其亦可經指定為「遮蔽值」且可例如經指定為M(k,n),且亦指定為經解碼音訊表示之譜域表示的頻譜值或經預處理頻譜值。例如,輸入至縮放338中且根據縮放值336經縮放之頻譜值可係基於譜域表示326,或可係基於絕對值362,其中,視情況,可在執行縮放338之前應用預處理。預處理可例如包含例如呈固定縮放或由經編碼音訊資訊之旁側資訊決定之縮放形式的濾波。然而,預處理亦可係固定的,且可獨立於經編碼音訊表示之旁側資訊。此外,應注意,輸入至縮放338中且使用縮放值336經縮放之頻譜值未必需要相同於用以導出縮放值336之頻譜值。
因此,縮放338可例如將輸入至縮放338中之頻譜值與縮放值相乘,其中不同縮放值與不同頻率區間或頻率範圍相關聯。因此,獲得增強型音訊表示312,其中增強型音訊表示可例如包含經縮放譜域表示(例如,)或此譜域表示之經縮放絕對值(例如,)。因此,縮放338可例如使用與經解碼音訊表示322相關聯之頻譜值與由神經網路或機器學習結構380提供之相關聯縮放值之間的簡單相乘來執行。
總之,裝置300基於經編碼音訊表示310提供增強型音訊表示312,其中縮放338被應用於基於由解碼器核心320提供之經解碼音訊表示322的頻譜值。用於縮放338中之縮放值336由神經網路或機器學習結構提供,其中較佳地藉由對數化基於經解碼音訊表示322之頻譜值的絕對值來獲得神經網路或機器學習結構380之輸入信號。然而,藉由適當選擇定義濾波器特性之該組值382,神經網路或機器學習結構可以某種方式提供縮放值,使得當相比於經解碼音訊表示時,縮放338改良增強型音訊表示之收聽印象。
此外,應注意,音訊解碼器300可視情況由本文中所描述之特徵、功能性及細節中之任一者補充。4 ) 根據圖 4 之裝置
圖4展示用以決定定義濾波器特性之一組值(例如,神經網路之係數或另一機器學習結構之係數)的裝置400之示意性方塊圖。裝置400經組配以接收訓練音訊表示410,並基於其提供定義濾波器特性之一組值412。應注意,訓練音訊表示410可例如包含用以決定該組值412之不同音訊內容。
裝置400包含音訊編碼器420,其經組配以編碼訓練音訊表示410,以藉此獲得經編碼訓練音訊表示422。裝置400亦包含解碼器核心430,其接收經編碼訓練音訊表示422,並基於其提供經解碼音訊表示432。應注意,解碼器核心420可例如相同於解碼器核心320及解碼器核心120。經解碼音訊表示432亦可對應於經解碼音訊表示210。
裝置400亦視情況包含轉換442,其將基於訓練音訊表示410之經解碼音訊表示432轉換成譜域表示446。轉換442可例如對應於轉換324,且譜域表示446可例如對應於譜域表示326。裝置400亦包含絕對值決定460,其接收譜域表示446並基於其提供譜域表示之絕對值462。絕對值決定460可例如對應於絕對值決定360。裝置400亦包含對數計算470,其接收譜域表示之絕對值462,並基於其提供經解碼音訊表示之譜域表示的對數化絕對值472。對數計算470可對應於對數計算370。
此外,裝置400亦包含神經網路或機器學習結構480,其對應於神經網路或機器學習結構380。然而,機器學習結構或神經網路480的指定為482之係數由神經網路訓練/機器學習訓練490提供。此處應注意,神經網路/機器學習結構480向神經網路訓練/機器學習訓練490提供縮放值,神經網路/機器學習結構基於對數化絕對值372導出該等縮放值。
裝置400亦包含目標縮放值計算492,其亦指定為「比率遮罩計算」。例如,目標縮放值計算492接收訓練音訊表示410及經解碼音訊表示432之譜域表示的絕對值462。因此,目標縮放值計算492提供目標縮放值資訊494,其描述應由神經網路/機器學習結構480提供之所要縮放值。因此,神經網路訓練/機器學習訓練490比較由神經網路/機器學習結構480提供之縮放值484與由目標縮放值計算492提供之目標縮放值494,並調整值482(亦即,機器學習結構或神經網路之係數)以減少(或最小化)縮放值484與目標縮放值494之間的偏差。
在下文中,將提供對裝置400之功能性的概述。藉由在音訊編碼器420及音訊解碼器430中編碼及解碼訓練音訊表示(其可例如包含不同音訊內容),獲得經解碼音訊表示432,由於有損編碼中之損耗,其在相比於訓練音訊表示時通常包含一些降級。目標縮放值計算492決定哪種縮放(例如,哪些縮放值)應被應用於經解碼音訊表示432之頻譜值,使得經解碼音訊表示432之經縮放頻譜值良好地近似訓練音訊表示之頻譜值。假定由有損編碼引入之偽影可至少部分地藉由將縮放應用於經解碼音訊表示432之頻譜值來補償。因此,由神經網路訓練/機器學習訓練來訓練神經網路或機器學習結構480,使得由神經網路/機器學習結構480基於經解碼音訊表示432提供之縮放值482近似目標縮放值494。可選的轉換442、絕對值決定460及對數計算470僅僅構成用以導出用於神經網路或機器學習結構480之輸入值472(其為經解碼音訊表示之頻譜值的對數化絕對值)的(可選)預處理步驟。
神經網路訓練/機器學習訓練490可使用適當學習機制(例如,最佳化程序),以便調整機器學習結構或神經網路之係數482,使得最小化縮放值484與目標縮放值494之間的差(例如,加權差)或使該差低於臨限值或至少減少該差。
因此,機器學習結構或神經網路之係數482(或大體而言,定義濾波器特性之一組值)由裝置400提供。此等值可用於濾波器130中(以調整縮放值決定134)或裝置300中(以調整神經網路/機器學習結構380)。
然而,應注意,裝置400可視情況由本文中所描述之特徵、功能性及細節中之任一者補充。5 . 根據圖 5 之裝置
圖5展示用以決定定義濾波器之一組值512的裝置500之示意性方塊圖,其中值512可例如為機器學習結構或神經網路之係數。
應注意,裝置500類似於裝置400,使得將不再概述相同特徵、功能性及細節。實際上,參考上文解釋。
裝置500接收訓練音訊表示510,其可例如對應於訓練音訊表示410。裝置500包含音訊編碼器520,其對應於音訊編碼器420且提供對應於經編碼訓練音訊表示422之經編碼訓練音訊表示522。裝置500亦包含解碼器核心530,其對應於解碼器核心430且提供經解碼音訊表示532。
裝置500視情況包含轉換542,其對應於轉換442且提供經解碼音訊表示552之譜域表示(例如,呈頻譜值形式)。譜域表示經指定為546且對應於譜域表示446。此外,裝置500包含對應於絕對值決定460之絕對值決定560。裝置500亦包含對應於對數計算470之對數計算570。此外,裝置500包含對應於機器學習結構480之神經網路或機器學習結構580。然而,裝置500亦包含縮放590,其經組配以接收經解碼音訊表示之頻譜值546或經解碼音訊表示之頻譜值的絕對值562。縮放亦接收由神經網路580提供之縮放值584。因此,縮放590對經解碼音訊表示之頻譜值或音訊表示之頻譜值的絕對值進行縮放,以藉此獲得增強型音訊表示592。增強型音訊表示592可例如包含經縮放頻譜值(例如,)或頻譜值之經縮放絕對值(例如,)。原則上,增強型音訊表示592可對應於由裝置100提供之增強型音訊表示112,及由裝置300提供之增強型音訊表示312。在此範圍內,除了指定為594的神經網路或機器學習結構580之係數係由神經網路訓練/機器學習訓練596調整之實情外,裝置500之功能性可對應於裝置100之功能性及/或裝置300之功能性。例如,神經網路訓練/機器學習訓練596可接收訓練音訊表示510且亦接收增強型音訊表示592,且可調整係數594,使得增強型音訊表示592近似訓練音訊表示。
此處應注意,若增強型音訊表示592以良好的準確性近似訓練音訊表示510,則由有損編碼引起的信號降級至少部分地由縮放590進行補償。換言之,神經網路訓練596可例如決定訓練音訊表示510與增強型音訊表示592之間的(加權)差,並調整機器學習結構或神經網路580之係數594以便減少或最小化此差。係數594之調整可例如以迭代程序執行。
因此,可實現神經網路或機器學習結構580之係數594經調適成使得在正常操作中,使用所決定係數594之機器學習結構或神經網路380可提供產生良好品質增強型音訊表示312之縮放值336。
換言之,神經網路或機器學習結構480之係數482或神經網路或機器學習結構580之係數594可用於裝置300之神經網路380中,且可預期裝置300在此情況下提供高品質增強型音訊表示312。當然,此功能性係基於神經網路/機器學習結構380類似或甚至相同於神經網路/機器學習結構480或神經網路/機器學習結構580之假定。
此外,應注意,係數482、412或係數594、512亦可用於音訊解碼器100之縮放值決定134中。
此外,應注意,裝置500可視情況由本文中所描述之特徵、功能性及細節中之任一者個別地及組合地補充。6 ). 細節及實施例
在下文中,將論述本發明所基於的一些考慮且將描述若干解決方案。特定而言,將揭示數個細節,該等細節可視情況被引入至本文中揭示之實施例中之任一者中。6 . 1 問題表述 6 .1 .1 理想比率遮罩 (IRM )
自極簡數學視角,可將例如由解碼器核心(例如,解碼器核心120或解碼器核心320或解碼器核心430或解碼器核心530)提供之經解碼話音的經寫碼話音描述為:(1)
其中為至編碼器(例如,音訊編碼器410、510)之輸入且為量化雜訊。量化雜訊與輸入話音相關,此係由於ACELP在量化程序期間使用感知模型。量化雜訊之此相關性性質使得吾人之後置濾波問題對於假定雜訊不相關之話音增強問題而言係獨特的。為了減少量化雜訊,吾人估計每時間頻率區間之實值遮罩,並將此遮罩與彼時間頻率區間之經寫碼話音的量值相乘。(2)
其中為實值遮罩,為經寫碼話音之量值,為增強型話音之量值,k為頻率索引且n為時間索引。若吾人之遮罩係理想的(例如,若縮放值係理想的),則吾人可自經寫碼話音重建構清晰話音。(3)
其中為清晰話音之量值。
換言之,例如,可使用縮放基於經解碼音訊導出增強型音訊表示,其中縮放因數可由描述。又,例如,可自經解碼音訊表示導出縮放因數,此係由於雜訊(其至少部分地由縮放使用縮放因數來補償)與經解碼音訊表示之間通常存在相關性。例如,如等式(2)中給出之縮放可由縮放138執行,其中縮放值決定134可例如提供縮放值,其將近似如例如由等式(4)描述之理想縮放向量。
此可例如藉由縮放值決定134或縮放值決定334之適當設計來實現,其中,例如,可如下文中所概述般決定用以實施區塊380的機器學習結構或神經網路之係數。6 .1 .2 MMSE 最佳化
例如,可使用兩種不同類型之最小均方誤差(MMSE)最佳化來訓練神經網路(例如,神經網路380):遮罩近似(MA)(例如,如圖4中所示)及信號近似(SA)[10](例如,如圖5中所示)。MA最佳化方法試圖最小化目標遮罩(例如,目標縮放值)與所估計遮罩(例如,由神經網路提供之縮放值484)之間的均方誤差(MSE)。(5)
其中IRM(k,n)為目標遮罩,為所估計遮罩。
換言之,縮放值決定134或縮放值決定334中使用之神經網路可經訓練,例如如圖4及圖5中所示。如自圖4可見,神經網路訓練/機器學習訓練490根據等式(5)中定義之準則最佳化神經網路係數或機器學習結構係數482。
如圖5中所示,神經網路訓練/機器學習訓練596根據等式(6)中定義之準則最佳化神經網路係數/機器學習結構係數594。
6.1.3 對遮罩值之分析
在用於話音增強及去混響的大部分所提出基於遮罩之方法中,遮罩值被限界至一[9][10]。習知地,此係因為若遮罩值未被限界至一,則估計錯誤可帶來雜訊或音樂音調之放大[15]。因此,此等方法將S型函數用作輸出激發以便將遮罩值限界至1。
表1展示針對不同信雜比(SNR)處於間隔(0,1)中的遮罩值之百分比。此等遮罩值係藉由將不同SNR下之白雜訊添加至清晰話音而計算出。吾人可自表1推斷出,大部分遮罩值處於間隔[0,1]中,且因此將遮罩值限界至1對基於神經網路之話音增強系統無不良影響。
吾人接著計算在AMR-WB之三個較低位元速率(6.65kbps、8.85kbps及12.65kbps)下之遮罩值的分佈。表2展示所計算分佈。與表1之一個主要差異在於處於[0,1]之範圍內的遮罩值之百分比。雖然在6.65kbps下,39%之值處於此範圍中,但在12.65kbps下,此值增大至44%。差不多30至36%之遮罩值處於(1,2]之範圍內。差不多95%之遮罩值處於[0,5]之範圍內。因此,對於後置濾波問題,吾人無法簡單地將遮罩值限界至1。此防止吾人在輸出層處使用S型激發(或簡單地,未經縮放S型激發)。
換言之,已發現在根據本發明之實施例中使用大於一之遮罩值(亦指定為縮放值)為有利的。又,已發現將遮罩值或縮放值限於應大於一,且可例如在1與10之間的區中或1.5與10之間的區中之預定值為有利的。藉由限制遮罩值或縮放值,可避免可能產生偽影之過度縮放。例如,可藉由在神經網路之輸出層中使用經縮放S型激發,或藉由將(例如,經校正)受限線性激發函數用作神經網路之輸出層來實現適當縮放值範圍。6 .2 實驗設置
在下文中,將描述關於實驗設置之一些細節。然而,應注意,本文中所描述之特徵、功能性及細節可視情況併入至本文中所揭示之實施例中之任一者中。
吾人之所提出後置濾波器以16 kHz取樣速率計算長度為16 ms、具有50%之重疊(8 ms)的訊框之短時傅里葉變換(STFT)(例如,在區塊324中)。在計算長度為256之快速傅立葉變換(FFT),從而產生129個頻率區間(例如,空間域表示326)之前,藉由hann窗對時間框進行加窗。自FFT,計算對數量值,以便壓縮量值之極高動態範圍(例如,對數化絕對值372)。由於話音具有時間相依性,因此吾人使用所處理時間框周圍之上下文訊框(例如,指定為373)。吾人在兩個條件下測試吾人之所提出模型:a)僅使用過去上下文訊框及b)使用過去及將來上下文訊框兩者。進行此操作係因為將來上下文訊框添加了所提出後置濾波器之延遲,且吾人想要測試使用將來上下文訊框之益處。吾人之實驗選擇3之上下文窗,從而在僅考慮過去上下文訊框時產生僅一個訊框(16 ms)之延遲。當考慮過去及將來上下文訊框兩者時,所提出後置濾波器之延遲為4個訊框(64 ms)。
在藉由僅過去3個上下文訊框及當前所處理訊框進行測試時,至吾人之所提出神經網路之輸入特徵尺寸(例如,值373及373之尺寸)為516(4*129)。當藉由過去及將來上下文訊框兩者進行測試時,輸入特徵尺寸為903(7*129)。輸入特徵(例如,值372及373)經歸一化為零均值及單位方差。然而,目標——實值遮罩(例如,值494)或未寫碼話音之量譜(例如,值410之量值)未經歸一化。
FCNN為具有輸入層610、一或多個隱藏層612a至612d以及輸出層614之簡單神經網路。吾人藉由Keras[16]在python中實施FCNN且將Tensorflow[17]用作後端。在吾人之實驗中,吾人已使用具有2048個單位之4個隱藏層。所有4個隱藏層將經校正線性單位(ReLU)用作激發函數[18]。隱藏層之輸出經使用批量歸一化而歸一化[19]。為了防止過度擬合,吾人將釋放值[20]設定為0.2。為訓練吾人之FCNN,吾人使用具有學習速率0.01之Adam最佳化器[21]且所使用批量大小為32。
輸出層614之尺寸為129。由於吾人之FCNN估計實值遮罩且此等遮罩可為之間的任一值,因此吾人在限界遮罩值及無限界兩情況下進行測試。當遮罩值未經限界時,吾人在吾人之輸出層中使用ReLU激發。當遮罩值經限界時,吾人使用經限界ReLU激發或S型函數,並藉由某一縮放因數N縮放S型激發之輸出。
在使用經限界或未經限界ReLU時,輸出層處之梯度為:(8)
其中tar
為量譜(例如,音訊表示510之量值)或IRM(例如,值494),out
為增強型量值(例如,值542)或所估計遮罩(例如,值484),其為在0與臨限值之間的任一值,且h
為隱藏單元之輸出,其被給出為至輸出單元之輸入。當使用經限界ReLU時,等式8超出經限界值為零。
當使用經縮放S型函數時,輸出層處之梯度為:(9)
其中tar
為量譜或IRM(例如,值494),out
為增強型量值或所估計遮罩, Mest
為在0與1之間的任一值,且h
為隱藏單元之輸出,其被給出為至輸出單元之輸入。
對於吾人之訓練、驗證及測試,吾人使用NTT資料庫[22]。吾人亦對TIMIT資料庫[23]執行交叉資料庫測試,以確認模型對訓練資料庫之獨立性。NTT及TIMIT資料庫兩者皆為清晰話音資料庫。TIMIT資料庫由16kHz取樣速率下之單聲道話音檔案組成。NTT資料庫由48kHz下取樣之立體聲話音檔案組成。為了獲得16kHz下之單聲道話音檔案,吾人對NTT資料庫執行被動降混及重取樣。NTT資料庫由3960個檔案組成,其中之3612個檔案用於訓練,198個檔案用於驗證且150個檔案用於測試。NT資料庫由男性及女性說話者兩者組成,且亦由諸如美式及英式英語、德語、漢語、法語及日語之語言組成。
使用逆短時傅里葉變換(iSTFT)獲得時域增強型話音。iSTFT使用經寫碼話音之相位而不進行任何處理。
總之,如圖6中所示之全連接式神經網路600用於根據本發明之實施例中以實施縮放值決定134或神經網路380。又,神經網路600可由裝置200或裝置400或裝置500訓練。
如可見,神經網路600在其輸入層610中接收對數化量值(例如,頻譜值之對數化絕對值132、372、472、572)。例如,可在輸入層610處接收當前所處理訊框以及一或多個之前訊框及一或多個後續訊框之頻譜值的對數化絕對值。輸入層可例如接收頻譜值之對數化絕對值。由輸入層接收之值接著可以經縮放方式被轉遞至第一隱藏層612a之人工神經元。輸入層612之輸入值的縮放可例如由定義濾波器特性之該組值來定義。隨後,可使用非線性函數實施的第一隱藏層612之人工神經元提供第一隱藏層612a之輸出值。第一隱藏層612a之輸出值接著被以經縮放方式提供至後續(第二)隱藏層612b之人工神經元的輸入。同樣,縮放由定義濾波器特性之該組值來定義。可包括包含類似功能性之額外隱藏層。最後,最後隱藏層(例如,第四隱藏層612d)之輸出信號被以經縮放方式提供至輸出層614之人工神經元的輸入。輸出層614之人工神經元的功能性可例如由輸出層激發函數來定義。因此,可使用輸出層激發函數之評估來決定神經網路之輸出值。
此外,應注意,神經網路可係「全連接式的」,此意謂例如神經網路之所有輸入信號可貢獻於第一隱藏層之所有人工神經元的輸入信號,且給定隱藏層之所有人工神經元的輸出信號可貢獻於後續隱藏層之所有人工神經元的輸入信號。然而,實際貢獻可由定義濾波器特性之該組值來決定,該組值通常由神經網路訓練490、596決定。
此外,應注意,在決定神經網路之係數時,神經網路訓練490、596可例如使用如等式(8)及(9)中所提供之梯度。
應注意,此章節中描述之特徵、功能性及細節中之任一者可視情況個別地及組合地被引入至本文中所揭示之實施例中之任一者中。6 .3 實驗及結果
為了估計遮罩值之邊界,吾人進行oracle實驗。就此而言,吾人估計IRM並藉由不同臨限值對IRM進行限界,如圖7中所示。吾人使用諸如話音品質之感知評估(PESQ)[24][25][26]及感知客觀收聽品質評估(POLQA)[27]之客觀量測來進行吾人之評估。自圖7可推斷出,將臨限值設定為1之效能不如將臨限值設定為2、4或10。臨限值2、4與10之間的差異極小。因此,吾人在進一步實驗中選擇將吾人之遮罩值限界至2。
此外,圖8展示評估所提出方法及EVS後置處理器之效能的平均PESQ及POLQA評分。可見,對於信號近似(例如,如圖5中所示)及遮蔽近似(例如,如圖4中所示)用於訓練人工神經網路之兩情況,應用本文中所描述之概念帶來話音品質之改良。7 . 結論
已發現,由於高量化雜訊,在較低位元速率下經寫碼話音之品質受到很大影響。通常在較低位元速率下採用後置濾波器,以便減輕量化雜訊之影響。在本發明中,吾人提出基於實值遮罩之後置濾波器,以便在較低位元速率下增強去寫碼話音之品質。為估計此實值遮罩,吾人採用例如對經歸一化對數量值進行運算之全連接式神經網路。吾人在3個較低模式(6.65kbps、8.85kbps及12.65kbps)下在自適應性多重速率寬頻(AMR-WB)編解碼器上測試吾人之方案。吾人之實驗展示,PESQ、POLQA及主觀收聽測試皆得到改良。
換言之,根據本發明之實施例係關於在話音寫碼及/或話音解碼之上下文中使用全連接式網路之概念。根據本發明之實施例係關於經寫碼話音增強。根據本發明之實施例係關於後置濾波。根據本發明之實施例係關於處理量化雜訊(或更精確地,減少量化雜訊)之概念。
在根據本發明之實施例中,迴旋神經網路(CNN)被用作倒頻譜域中之映射函數。[14]提出對數量值域中的基於統計上下文之後置濾波器。
在此貢獻中,吾人將增強經寫碼話音之問題表述為回歸問題。全連接式神經網路(FCNN)經訓練以學習輸入(對數量值)與輸出(實值遮罩)之間的映射函數fθ
。所估計實值遮罩接著與輸入量值相乘以便增強經寫碼話音。吾人在位元速率6.65kbps、8.85kbps以及12.65kbps下在AMR-WB編解碼器上評估吾人之貢獻。在實施例中,後置濾波器可在EVS[4][3]中用作吾人之參考後置濾波器。對於其他細節,參考章節6.1及6.2。如可見,提供言語收聽測試結果。例如,可使用根據本發明之實施例實現有利的PESQ及POLQA評分。
在下文中,將描述一些額外重要點。
根據第一態樣,在根據本發明之實施例中使用用以增強經寫碼話音之品質的基於遮罩之後置濾波器。
a.遮罩為實值(或縮放值為實值)。針對每一頻率區間通過機器學習演算法(或神經網路)自輸入特徵估計遮罩
b.
c.其中為所估計遮罩,為經寫碼話音之量值,且為在頻率區間k及時間索引n處的經後置處理話音
d.當前使用之輸入特徵為對數量譜,但亦可為量譜之任何導數。
根據第二態樣,可視情況限制遮罩值或縮放值。
所估計遮罩值處於例如範圍內。為了防止此較大範圍,可視情況設定臨限值。在傳統話音增強演算法中,遮罩被限界至1。相比之下,吾人將其限界至大於1之臨限值。此臨限值係藉由分析遮罩分佈而決定。有用之臨限值可例如處於2至10之間的任何位置。
a. 由於所估計遮罩值例如被限界至臨限值且由於該臨限值大於1,因此輸出層可為經限界之經校正線性單位ReLU或經縮放S型函數。
b. 當使用遮罩近似MMSE(最小均方誤差最佳化)方法來最佳化機器學習演算法時,可藉由將目標遮罩中高於臨限值之遮罩值(例如,目標縮放值)設定至1或可設定至臨限值來視情況修改目標遮罩(例如,目標縮放值)。
根據第三態樣,機器學習演算法可用作全連接式神經網路。長短期記憶網路(LSTM)亦可用作替代方案。
a. 全連接式神經網路由例如4個隱藏層組成。每一隱藏層例如由2048或2500個經校正線性單位(ReLU)激發組成。
b. 全連接式神經網路的輸入尺寸取決於上下文訊框及FFT之大小。系統之延遲亦取決於上下文訊框及訊框大小。
c. 上下文訊框之大小可例如處於3與5之間的任何位置。對於吾人之實驗,吾人將例如256(16ms @ 16 kHz)用作訊框大小及FFT大小。上下文訊框之大小被設定成3,此係由於在超出3時益處極低。吾人亦在將來+過去上下文訊框及僅過去上下文訊框之兩情況下進行測試。
根據第四態樣,藉由以下MMSE(最小均方估計最佳化)來訓練全連接式網路:遮罩近似及信號近似。
a. 在遮罩近似中,最小化目標遮罩(例如,目標縮放值)與所估計遮罩(例如,使用神經網路決定之縮放值)之間的均方誤差。目標遮罩經修改,例如如(2.b)中(例如,態樣2、子章節b)中。
b. 在信號近似中,最小化增強型量值(例如,增強型量譜592)與目標量值(例如,音訊表示510之量譜)之間的均方誤差。增強型量值係藉由將來自DNN(例如,來自神經網路)之所估計遮罩與經寫碼量值相乘所獲得。目標量值為未寫碼話音量值。
總之,本文中所描述之實施例可視情況由此處所描述之重要點或態樣中之任一者來補充。然而,應注意,此處所描述之重要點及態樣可個別地或組合地使用,且可個別地及組合地引入至本文中所描述的實施例中之任一者中。8 . 根據圖 9 之方法
圖9展示根據本發明之實施例的用於基於經編碼音訊表示提供增強型音訊表示之方法900的示意性方塊圖。
此外,該方法包含920基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且該方法包含使用縮放值(M(k,n))縮放930經解碼音訊信號表示()之頻譜值或其經預處理版本,以獲得增強型音訊表示()。
方法900可視情況由本文中所描述之特徵、功能性及細節中之任一者個別地及組合地補充。9 . 根據圖 10 之方法
該方法亦包含決定1020定義濾波器特性之該組值,使得由濾波器基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值提供的縮放值近似目標縮放值。
替代地,該方法包含決定1030定義濾波器特性之該組值,使得由濾波器基於與不同頻率區間或頻率範圍相關聯的經解碼音訊表示之頻譜值,且使用基於經解碼音訊表示獲得之縮放值所獲得的頻譜近似目標頻譜。10 . 實施替代方案
儘管已在裝置之上下文中描述一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(相似於例如微處理器、可規劃電腦或電子電路)執行方法步驟中之一些或所有。在一些實施例中,可由此類裝置執行最重要之方法步驟中之一或多者。
本發明經編碼音訊信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或軟體實施。可使用其上儲存有與可規劃電腦系統協作(或能夠協作)之電子可讀控制信號,使得執行各別方法之數位儲存媒體(例如,軟碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行實施。因此,數位儲存媒體可係電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,其能夠與可規劃電腦系統協作,使得執行本文中所描述方法中之一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品運行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上,用於執行本文中所描述之方法中的一者的電腦程式。
換言之,因此,發明方法之實施例為具有當電腦程式運行於電腦上時,用於執行本文中所描述之方法中的一者的程式碼之電腦程式。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非瞬變的。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如,經組配或經調適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯器件。
另一實施例包含電腦,其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中的一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件等。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可規劃邏輯器件(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。大體而言,較佳地由任何硬體裝置執行該等方法。
本文中所描述之裝置可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施。
本文中所描述之裝置或本文中所描述之裝置的任何組件可至少部分地以硬體及/或以軟體予以實施。
本文中所描述之方法可使用硬體裝置或使用電腦或使用硬體裝置與電腦的組合來執行。
本文中所描述之方法或本文中所描述之裝置的任何組件可至少部分地由硬體及/或由軟體來執行。
上文所描述之實施例僅僅說明本發明之原理。應理解,熟習此項技術者將顯而易見對本文中所描述之配置及細節的修改及變化。因此,其僅意欲由接下來之申請專利範圍之範疇限制,而非由藉助於本文中實施例之描述及解釋所呈現的特定細節限制。11 . 參考文獻
[1] 3GPP, “Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions,” 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm
[2] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell,
H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache, Y. Ka-mamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran,
V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, “Overview of the EVS codec architecture.” IEEE, 2015, pp. 5698-5702.
[3] 3GPP, “TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),” 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm
[4] T. Vaillancourt, R. Salami, and M. Jelnek, “New post-processing techniques for low bit rate celp codecs,” inICASSP
, 2015.
[5] J.-H. Chen and A. Gersho, “Adaptive postfiltering for quality en-hancement of coded speech,” vol. 3, no. 1, pp. 59-71, 1995.
[6] T. Bäckström,Speech Coding with Code-Excited Linear Prediction
. Springer, 2017. [Online]. Available: http://www.springer.com/gp/book/9783319502021
[7] K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, “Learning spectral mapping for speech dereverberation and de-noising.”
[8] Y. Zhao, D. Wang, I. Merks, and T. Zhang, “Dnn-based enhance-ment of noisy and reverberant speech,” in2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
, 2016.
[9] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,”IEEE/ACM Transactions on Au-dio, Speech, and Language Processing
, vol. 22, pp. 1849 - 1858, 2014.
[10] F. Weninger, J. R. Hershey, J. L. Roux, and B. Schuller, “Dis-criminatively trained recurrent neural networks for single-channel speech separation,” inIEEE Global Conference on Signal and Information Processing (GlobalSIP)
, 2014.
[11] D. S. Williamson and D. Wang, “Time-frequency masking in the complex domain for speech dereverberation and denoising.”
[12] Z. Zhao, S. Elshamy, H. Liu, and T. Fingscheidt, “A cnn postpro-cessor to enhance coded speech,” in16th International Workshop on Acoustic Signal Enhancement (IWAENC)
, 2018.
[13] Z. Zhao, H. Liu, and T. Fingscheidt, “Convolutional neural net-works to enhance coded speech,”IEEE/ACM Transactions on Au-dio, Speech, and Language Processing
, vol. 27, no. 4, pp. 663- 678, April 2019.
[14] S. Das and T. Bäckström, “Postfiltering using log-magnitude spectrum for speech and audio coding,” inProc. Inter-speech 2018
, 2018, pp. 3543-3547. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1027
[15] W. Mack, S. Chakrabarty, F.-R. Stöter, S. Braun, B. Edler, and E. Habets, “Single-channel dereverberation using direct mmse optimization and bidirectional lstm networks,” inProc. Interspeech 2018
, 2018, pp. 1314-1318. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1296
[16] F. Cholletet al.
, “Keras,” https://keras.io, 2015.
[17] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane´, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vie´gas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng, “TensorFlow: Large-scale machine learning on heterogeneous systems,” 2015, software available from tensorflow.org. [Online]. Available: http://tensorflow.org/
[18] X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in ^International Conference on Artificial Intelligence and Statistics
, 2011, p. 315323.
[19] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” inInternational Conference on Machine Learning
, vol. 37, 2015, pp. 448- 456.
[20]N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,”J. Mach. Learn. Res.
, vol. 15, no. 1, pp. 1929-1958, Jan. 2014. [Online]. Available: http://dl.acm.org/citation.cfm?id=2627435.2670313
[21]D. Kingma and J. Ba, “Adam: A method for stochastic optimiza-tion,” inarXiv preprint arXiv:1412.6980
, 2014.
[22]NTT-AT, “Super wideband stereo speech database,”
http://www.ntt-at.com/product/widebandspeech, accessed:
09.09.2014. [Online]. Available: http://www.ntt-
at.com/product/widebandspeech
[23]J. S. Garofolo, L. D. Consortiumet al.
,TIMIT: acoustic-phonetic continuous speech corpus
. Linguistic Data Consortium, 1993.
[24]A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual eval-uation of speech quality (pesq) - a new method for speech quality assessment of telephone networks and codecs,” in2001 IEEE International Conference on Acoustics, Speech and Signal Process-ing (ICASSP)
, 2001.
[25]ITU-T, “P.862.1 : Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO,” (International Telecommunication Union), Tech. Rep. P.862.1, Nov. 2003.
[26]——, “P.862.2 : Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” (International Telecommunication Union), Tech. Rep. P.862.2, Nov. 2005.
[27]Perceptual objective listening quality assessment (POLQA)
, ITU-T Recommendation P.863, 2011. [Online]. Available: http://www.itu.int/rec/T-REC-P.863/en
[28] Recommendation BS.1534,Method for the subjective assessment of intermediate quality levels of coding systems
, ITU-R, 2003.
100,300:音訊解碼器
110,310:經編碼音訊表示
112,312,592:增強型音訊表示
120,320,430,530:解碼器核心
122,210,322,432,532:經解碼音訊表示
130:濾波器
132,222,546:頻譜值
134,334:縮放值決定,縮放值決定器
136,336,484,584:縮放值
138,338,590:縮放,縮放器
200,400,500:裝置
212,382,412,512:定義濾波器之一組值
214:目標縮放值
216:目標頻譜資訊
220:頻譜值決定
230:定義濾波器之一組值的決定
324,442,542:轉換
326,446,546:譜域表示,頻譜值
360,460,560:絕對值決定
362,462,562:絕對值
370,470,570:對數計算
372,472,572:對數化絕對值
373:上下文訊框,值
380,480,580:神經網路或機器學習結構
410,510:訓練音訊表示
420,520:音訊編碼器
422,522:經編碼訓練音訊表示
482,594:係數,值
490,596:神經網路訓練/機器學習訓練
492:目標縮放值計算
494:目標縮放值資訊
600:全連接式神經網路(FCNN)
610:輸入層
612a-612d:隱藏層
614:輸出層
900,1000:方法
910,920,930,1010,1020,1030:步驟
隨後將參考附圖描述根據本發明之實施例,在附圖中:
圖1 展示根據本發明之實施例的音訊解碼器之示意性方塊圖;
圖2 展示根據本發明之實施例的用以決定定義濾波器特性之一組值的裝置之示意性方塊圖;
圖3 展示根據本發明之實施例的音訊解碼器之示意性方塊圖;
圖4 展示根據本發明之實施例的用以決定定義濾波器特性之一組值的裝置之示意性方塊圖;
圖5 展示根據本發明之實施例的用以決定定義濾波器特性之一組值的裝置之示意性方塊圖;
表1 展示針對不同信雜比(SNR)處於間隔(0, 1)中的遮罩值之百分比的表示;
表2 展示在AMR-WB之最低三個位元速率下量測之不同臨限值區中的遮罩值之百分比的表示;
圖6 展示將對數量值映射至實值遮罩之全連接式神經網路(FCNN)的示意性表示;
圖7 展示在6.65 kbps下之遮罩的不同邊界情況下評估Oracle實驗之平均PESQ及POLQA評分的圖形表示;
圖8 展示評估所提出方法及EVS後置處理器之效能的平均PESQ及POLQA評分之圖形表示;
圖9 展示根據本發明之實施例的方法之流程圖;及
圖10 展示根據本發明之實施例的方法之流程圖。
100:音訊解碼器
110:經編碼音訊表示
112:增強型音訊表示
120:解碼器核心
122:經解碼音訊表示
130:濾波器
132:頻譜值
134:縮放值決定,縮放值決定器
136:縮放值
138:縮放,縮放器
Claims (41)
- 如請求項1之音訊解碼器,其中該濾波器適於使用一可組配處理結構以便提供該等縮放值(M(k,n)),該處理結構之一組配係基於一機器學習演算法。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構之輸入信號表示該經解碼音訊表示之頻譜值的對數量值、振幅或範數,頻譜值與不同頻率區間或頻率範圍相關聯。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構之輸出信號表示該等縮放值(M(k,n))。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構經訓練,以限制、減少或最小化多個目標縮放值(IRM(k,n))與使用該神經網路或使用該機器學習結構獲得之多個縮放值(M(k,n))之間的一偏差(MSEMA)。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構經訓練,以限制、減少或最小化一目標量譜、一目標振幅頻譜、一目標絕對頻譜或一目標範數頻譜(|X(k,n)|)與使用一經處理頻譜之一縮放獲得的一量譜、一振幅頻譜、一絕對頻譜或一範數頻譜之間的一偏差(MSESA),該經處理頻譜使用由該神經網路或由該機器學習結構提供之縮放值。
- 如請求項11之音訊解碼器,其中該最大值大於1。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構經訓練,使得用於該經解碼音訊信號表示之該頻譜分解的一或多個頻譜值,或用於基於該經解碼音訊信號表示之該頻譜分解的該等頻譜值之一或多個經預處理頻譜值之該縮放限於2,或限於5,或限於10,或限於大於1之一預定值。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構經訓練,使得該等縮放值限於2,或限於5,或限於10,或限於大於1之一預定值。
- 如請求項6之音訊解碼器,其中該神經網路或該機器學習結構之輸入特徵的一數目比該神經網路或該機器學習結構之輸出值的一數目大至少2倍。
- 如請求項6之音訊解碼器, 其中該濾波器經組配以將該神經網路或該機器學習結構之輸入特徵歸一化為一預定均值及/或一預定方差或標準偏差。
- 如請求項1之音訊解碼器,其中該神經網路包含一輸入層、一或多個隱藏層及一輸出層。
- 如請求項17之音訊解碼器,其中該一或多個隱藏層將經校正線性單位用作激發函數。
- 如請求項17之音訊解碼器,其中該輸出層將經校正線性單位或經限界之經校正線性單位或S型函數用作激發函數。
- 如請求項1之音訊解碼器,其中該濾波器經組配以導出對數量值、振幅、絕對或範數值,並基於該等對數量值、振幅、絕對或範數值決定該等縮放值(M(k,n))。
- 請求項24之裝置,其中該裝置經組配以訓練一機器學習結構,該結構為該濾波器的一部分,且提供用於縮放該經解碼音訊信號之量值或該經解碼音訊信號之頻譜值的縮放值(M(k,n)),以減少或最小化多個目標縮放值(IRM(k,n))與多個縮放值(M(k,n))之間的一偏差(MSEMA),該等多個縮放值係使用該神經網路基於與不同頻率區間或頻率範圍相關聯的一經解碼音訊表示之頻譜值而獲得。
- 如請求項24至26中任一項之裝置,其中該裝置經組配以訓練該機器學習結構,使得用於該經解碼音訊信號表示之頻譜值,或用於基於經解碼音訊信號表示之該等頻譜值的一或多個經預處 理頻譜值之一縮放處於在0與2之間的一範圍內,或處於在0與5之間的一範圍內,或處於在0與10之間的一範圍內。
- 如請求項24至26中任一項之裝置,其中該裝置經組配以訓練該機器學習結構,使得用於該經解碼音訊信號表示之頻譜值,或用於基於經解碼音訊信號表示之該等頻譜值的一或多個經預處理頻譜值之量值縮放限於在0與一預定最大值之間的一範圍內。
- 如請求項28之裝置,其中該最大值大於1。
- 一種電腦程式,其用於在該電腦程式在一電腦上運行時執行如請求項30或31之方法。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示;其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該神經網路或該機器學習結構經訓練,使得用於該經解碼音訊信號表示之頻譜分解的一或多個頻譜值,或用於基於該經解碼音訊信號表示之該頻譜分解的該等頻譜值之一或多個經預處理頻譜值之一縮放處於在0與一預定最大值之間的一範圍內,其中該最大值大於1。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼 音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示;其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該神經網路或該機器學習結構經訓練,使得用於該經解碼音訊信號表示之該頻譜分解的一或多個頻譜值,或用於基於該經解碼音訊信號表示之該頻譜分解的該等頻譜值之一或多個經預處理頻譜值之該縮放限於2,或限於5,或限於10,或限於大於1之一預定值。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示;其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該神經網路或該機器學習結構經訓練,使得該等縮放值限於2,或限於 5,或限於10,或限於大於1之一預定值。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示;其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該濾波器經組配以將該神經網路或該機器學習結構之輸入特徵歸一化為一預定均值及/或一預定方差或標準偏差。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示; 其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該神經網路或該機器學習結構之輸入信號表示該經解碼音訊表示之頻譜值的對數量值,頻譜值與不同頻率區間或頻率範圍相關聯。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示;其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該神經網路包含一輸入層、一或多個隱藏層及一輸出層;其中該一或多個隱藏層將經校正線性單位用作激發函數。
- 一種用於基於一經編碼音訊表示提供一經解碼音訊表示之音訊解碼器,其中該音訊解碼器包含用於提供該經解碼音訊表示之一增強型音訊表示的一濾波器,其中該濾波器經組配以基於與不同頻率區間或頻率範圍相關聯的該經解碼 音訊表示之頻譜值,獲得與不同頻率區間或頻率範圍相關聯之多個縮放值(M(k,n)),且其中該濾波器經組配以使用該等縮放值(M(k,n))縮放該經解碼音訊信號表示之頻譜值或其一經預處理版本,以獲得該增強型音訊表示;其中該濾波器包含經組配以基於描述該經解碼音訊表示之多個頻譜值提供該等縮放值(M(k,n))的一神經網路或一機器學習結構,頻譜值與不同頻率區間或頻率範圍相關聯;其中該神經網路包含一輸入層、一或多個隱藏層及一輸出層;其中該輸出層將經校正線性單位或經限界之經校正線性單位或S型函數用作激發函數。
- 一種用於決定定義一濾波器之特性的一組值之裝置,該濾波器用於基於一經解碼音訊表示提供一增強型音訊表示,其中該濾波器經組配以使用縮放值(M(k,n))縮放該經解碼音訊信號表示 之頻譜值或其一經預處理版本,以獲得該增強型音訊表示,其中該裝置經組配以獲得與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之頻譜值,且其中該裝置經組配以決定定義該濾波器之該等特性的該組值,使得縮放值近似目標縮放值,該等縮放值與不同頻率區間或頻率範圍相關聯且由該濾波器基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之該等頻譜值所提供,或其中該裝置經組配以決定定義該濾波器之該等特性的該組值,使得由該濾波器基於與不同頻率區間或頻率範圍相關聯的該經解碼音訊表示之該等頻譜值,且使用基於該經解碼音訊表示獲得之縮放值所獲得的一頻譜近似一目標頻譜。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2019/059355 WO2020207593A1 (en) | 2019-04-11 | 2019-04-11 | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
WOPCT/EP2019/059355 | 2019-04-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202105367A TW202105367A (zh) | 2021-02-01 |
TWI797441B true TWI797441B (zh) | 2023-04-01 |
Family
ID=66165982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109112229A TWI797441B (zh) | 2019-04-11 | 2020-04-10 | 音訊解碼器、用以決定定義濾波器特性之一組值之裝置、用以提供經解碼音訊表示型態之方法、用以決定定義濾波器特性之一組值之方法、及電腦程式 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20220223161A1 (zh) |
EP (1) | EP3953932A1 (zh) |
JP (1) | JP7383725B2 (zh) |
KR (1) | KR20210151931A (zh) |
CN (1) | CN114245919A (zh) |
AU (1) | AU2020271965A1 (zh) |
BR (1) | BR112021020330A2 (zh) |
CA (1) | CA3136520C (zh) |
MX (1) | MX2021012302A (zh) |
SG (1) | SG11202111138XA (zh) |
TW (1) | TWI797441B (zh) |
WO (2) | WO2020207593A1 (zh) |
ZA (1) | ZA202108890B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7487414B2 (ja) * | 2020-10-16 | 2024-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ディープニューラルネットワークを用いた適応ブロックスイッチング |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
WO2022211863A1 (en) * | 2021-03-31 | 2022-10-06 | Google Llc | Systems and methods for locally private non-interactive communications |
KR20240088788A (ko) * | 2021-10-14 | 2024-06-20 | 퀄컴 인코포레이티드 | 머신 러닝 기반 시변 필터와 선형 예측 코딩 필터의 조합을 이용한 오디오 코딩 |
US11849286B1 (en) | 2021-10-25 | 2023-12-19 | Chromatic Inc. | Ear-worn device configured for over-the-counter and prescription use |
US12075215B2 (en) | 2022-01-14 | 2024-08-27 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11950056B2 (en) | 2022-01-14 | 2024-04-02 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11832061B2 (en) * | 2022-01-14 | 2023-11-28 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US20230306982A1 (en) | 2022-01-14 | 2023-09-28 | Chromatic Inc. | System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures |
US11818547B2 (en) * | 2022-01-14 | 2023-11-14 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
EP4333464A1 (en) | 2022-08-09 | 2024-03-06 | Chromatic Inc. | Hearing loss amplification that amplifies speech and noise subsignals differently |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI466102B (zh) * | 2008-06-13 | 2014-12-21 | Nokia Corp | 用以使經編碼音訊資料之錯誤消隱的方法和裝置 |
TWI498881B (zh) * | 2009-12-07 | 2015-09-01 | Dolby Lab Licensing Corp | 使用適應性混成轉換之多聲道音訊編碼位元串流的改良解碼技術 |
US20180012605A1 (en) * | 2011-05-13 | 2018-01-11 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
US20040013272A1 (en) * | 2001-09-07 | 2004-01-22 | Reams Robert W | System and method for processing audio data |
SG170078A1 (en) * | 2006-12-13 | 2011-04-29 | Panasonic Corp | Encoding device, decoding device, and method thereof |
RU2470385C2 (ru) | 2008-03-05 | 2012-12-20 | Войсэйдж Корпорейшн | Система и способ улучшения декодированного тонального звукового сигнала |
ES2558229T3 (es) * | 2008-07-11 | 2016-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas |
EP4372744A1 (en) * | 2008-07-11 | 2024-05-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
AU2010309838B2 (en) * | 2009-10-20 | 2014-05-08 | Dolby International Ab | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
TWI484473B (zh) * | 2009-10-30 | 2015-05-11 | Dolby Int Ab | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
ES2461183T3 (es) * | 2010-03-10 | 2014-05-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Decodificador de señales de audio, codificador de señales de audio, procedimiento para decodificar una señal de audio, método para codificar una señal de audio y programa de ordenador que utilizan una adaptación dependiente de la frecuencia de un contexto de codificación |
JP6305694B2 (ja) * | 2013-05-31 | 2018-04-04 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
CA2925734C (en) * | 2013-10-18 | 2018-07-10 | Guillaume Fuchs | Coding of spectral coefficients of a spectrum of an audio signal |
ES2739477T3 (es) * | 2013-10-31 | 2020-01-31 | Fraunhofer Ges Forschung | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo |
US20160111107A1 (en) | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US11763834B2 (en) | 2017-07-19 | 2023-09-19 | Nippon Telegraph And Telephone Corporation | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method |
JP6721165B2 (ja) | 2017-08-17 | 2020-07-08 | 日本電信電話株式会社 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
WO2019083130A1 (ko) * | 2017-10-25 | 2019-05-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11605371B2 (en) * | 2018-06-19 | 2023-03-14 | Georgetown University | Method and system for parametric speech synthesis |
-
2019
- 2019-04-11 WO PCT/EP2019/059355 patent/WO2020207593A1/en active Application Filing
-
2020
- 2020-04-09 BR BR112021020330A patent/BR112021020330A2/pt unknown
- 2020-04-09 WO PCT/EP2020/060148 patent/WO2020208137A1/en active Search and Examination
- 2020-04-09 AU AU2020271965A patent/AU2020271965A1/en active Pending
- 2020-04-09 JP JP2021559874A patent/JP7383725B2/ja active Active
- 2020-04-09 CA CA3136520A patent/CA3136520C/en active Active
- 2020-04-09 KR KR1020217036989A patent/KR20210151931A/ko not_active Application Discontinuation
- 2020-04-09 CN CN202080035307.9A patent/CN114245919A/zh active Pending
- 2020-04-09 EP EP20717660.3A patent/EP3953932A1/en active Pending
- 2020-04-09 SG SG11202111138XA patent/SG11202111138XA/en unknown
- 2020-04-09 MX MX2021012302A patent/MX2021012302A/es unknown
- 2020-04-10 TW TW109112229A patent/TWI797441B/zh active
-
2021
- 2021-10-07 US US17/496,560 patent/US20220223161A1/en active Pending
- 2021-11-10 ZA ZA2021/08890A patent/ZA202108890B/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI466102B (zh) * | 2008-06-13 | 2014-12-21 | Nokia Corp | 用以使經編碼音訊資料之錯誤消隱的方法和裝置 |
TWI498881B (zh) * | 2009-12-07 | 2015-09-01 | Dolby Lab Licensing Corp | 使用適應性混成轉換之多聲道音訊編碼位元串流的改良解碼技術 |
US20180012605A1 (en) * | 2011-05-13 | 2018-01-11 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
Non-Patent Citations (2)
Title |
---|
Ziyue Zhao ET AL, " Enhancement of G.711-Coded Speech Providing Quality Higher Than Uncoded",Speech Communication; 13th ITG-Symposium, 12 October 2018, pages1-5,URL: https://www.researchgate.net/publication/328416287_Enhancement_of_G711-Coded_Speech_Providing_Quality_Higher_Than_Uncoded * |
Ziyue Zhao ET AL, " Enhancement of G.711-Coded Speech Providing Quality Higher Than Uncoded",Speech Communication; 13th ITG-Symposium, 12 October 2018, pages1-5,URL: https://www.researchgate.net/publication/328416287_Enhancement_of_G711-Coded_Speech_Providing_Quality_Higher_Than_Uncoded。 |
Also Published As
Publication number | Publication date |
---|---|
CA3136520C (en) | 2024-03-12 |
ZA202108890B (en) | 2024-04-24 |
US20220223161A1 (en) | 2022-07-14 |
SG11202111138XA (en) | 2021-11-29 |
CA3136520A1 (en) | 2020-10-15 |
EP3953932A1 (en) | 2022-02-16 |
WO2020208137A1 (en) | 2020-10-15 |
MX2021012302A (es) | 2021-12-15 |
WO2020207593A1 (en) | 2020-10-15 |
CN114245919A (zh) | 2022-03-25 |
KR20210151931A (ko) | 2021-12-14 |
JP2022528720A (ja) | 2022-06-15 |
BR112021020330A2 (pt) | 2021-12-14 |
TW202105367A (zh) | 2021-02-01 |
AU2020271965A1 (en) | 2021-11-04 |
JP7383725B2 (ja) | 2023-11-20 |
AU2020271965A2 (en) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI797441B (zh) | 音訊解碼器、用以決定定義濾波器特性之一組值之裝置、用以提供經解碼音訊表示型態之方法、用以決定定義濾波器特性之一組值之方法、及電腦程式 | |
Zhao et al. | Convolutional neural networks to enhance coded speech | |
Pulakka et al. | Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum | |
Tachibana et al. | An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation | |
RU2712125C2 (ru) | Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием | |
Skoglund et al. | Improving Opus low bit rate quality with neural speech synthesis | |
JP7123134B2 (ja) | デコーダにおけるノイズ減衰 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Korse et al. | Enhancement of coded speech using a mask-based post-filter | |
Pulakka et al. | Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model | |
Xu et al. | Deep noise suppression maximizing non-differentiable PESQ mediated by a non-intrusive PESQNet | |
Lim et al. | Robust low rate speech coding based on cloned networks and wavenet | |
US10672411B2 (en) | Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy | |
Zhao et al. | A CNN postprocessor to enhance coded speech | |
Grancharov et al. | Generalized postfilter for speech quality enhancement | |
RU2803449C2 (ru) | Аудиодекодер, устройство для определения набора значений, задающих характеристики фильтра, способы для обеспечения декодированного аудиопредставления, способы для определения набора значений, задающих характеристики фильтра, и компьютерная программа | |
Guimarães et al. | Optimizing time domain fully convolutional networks for 3D speech enhancement in a reverberant environment using perceptual losses | |
Le et al. | Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement model | |
Liu et al. | Investigation of Cost Function for Supervised Monaural Speech Separation. | |
Shahhoud et al. | PESQ enhancement for decoded speech audio signals using complex convolutional recurrent neural network | |
Nagaraja et al. | Advancements in encoded speech data by background noise suppression under uncontrolled environment | |
Kim et al. | A preprocessor for low-bit-rate speech coding | |
Jokinen et al. | Utilization of the Lombard effect in post-filtering for intelligibility enhancement of telephone speech. | |
Zheng et al. | On objective assessment of audio quality—A review | |
Hennix | Decoder based noise suppression |