TW202333140A - 多頻帶寫碼的系統和方法 - Google Patents
多頻帶寫碼的系統和方法 Download PDFInfo
- Publication number
- TW202333140A TW202333140A TW111138882A TW111138882A TW202333140A TW 202333140 A TW202333140 A TW 202333140A TW 111138882 A TW111138882 A TW 111138882A TW 111138882 A TW111138882 A TW 111138882A TW 202333140 A TW202333140 A TW 202333140A
- Authority
- TW
- Taiwan
- Prior art keywords
- filter
- band
- signal
- specific signals
- audio signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 136
- 230000005284 excitation Effects 0.000 claims abstract description 201
- 230000005236 sound signal Effects 0.000 claims abstract description 192
- 238000010801 machine learning Methods 0.000 claims abstract description 133
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 104
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 103
- 238000013528 artificial neural network Methods 0.000 claims description 58
- 230000004044 response Effects 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 abstract description 13
- 238000012986 modification Methods 0.000 abstract description 13
- 230000003321 amplification Effects 0.000 abstract description 8
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 description 87
- 230000000875 corresponding effect Effects 0.000 description 48
- 230000008569 process Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 38
- 238000004422 calculation algorithm Methods 0.000 description 27
- 239000011295 pitch Substances 0.000 description 25
- 230000008054 signal transmission Effects 0.000 description 19
- 238000003860 storage Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 238000001914 filtration Methods 0.000 description 14
- 239000000463 material Substances 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
本發明描述了用於音訊寫碼的系統和技術。音訊系統例如從編碼器和/或話音合成引擎接收與音訊訊號相對應的多個特徵。音訊系統基於多個特徵生成激發訊號,諸如諧波訊號和/或雜訊訊號。音訊系統使用濾波器組從激發訊號生成頻帶特定訊號。頻帶特定訊號對應於頻帶。音訊系統將多個特徵輸入機器學習濾波器估計器以生成與線性濾波器相關聯的多個參數。音訊系統將多個特徵輸入到語音估計器以生成多個增益值。音訊系統基於頻帶特定訊號的修改、根據多個參數應用線性濾波器、以及根據多個增益值使用多個增益放大器進行放大來生成輸出音訊訊號。
Description
本申請一般涉及音訊寫碼(例如,音訊編碼和/或解碼)。例如,描述了用於至少部分地通過將由機器學習系統(例如,基於神經網路的模型)生成的線性時變濾波器與線性預測寫碼(linear predictive coding, LPC)濾波器組合來執行音訊寫碼的系統和技術。
音訊寫碼(也稱為語音寫碼和/或話音寫碼)是一種被用於使用盡可能少的位元來表示數位化音訊訊號(從而壓縮話音資料),同時試圖保持一定水平的音訊品質的技術。音訊或語音編碼器被用於將數位化音訊(例如,話音、音樂等)訊號編碼(或壓縮)為較低位元率的資料串流。較低位元率的資料串流可以被輸入到音訊或語音解碼器,其解碼資料串流並構造原始訊號的近似訊號或重構訊號。音訊或語音編碼器-解碼器結構可以被稱為音訊寫碼器(或語音寫碼器或話音寫碼器)或音訊/語音/話音寫碼器-解碼器(寫碼器)。
音訊寫碼器是利用話音訊號為高度相關波形的事實。一些話音寫碼技術基於話音產生的源濾波器模型,該模型假設聲帶是頻譜平坦的聲音(激發訊號)的源,並且聲道(vocal tract)充當濾波器以對各種話音進行頻譜整形。可以通過它們的激發(源)和頻譜整形(濾波器)來區分不同的音位(例如,母音、擦音(fricatives)和語音擦音)。
本文描述了用於音訊寫碼的系統和技術。音訊系統例如從編碼器和/或話音合成引擎接收對應於音訊訊號的(多個)特徵。音訊系統基於(多個)特徵生成激發訊號,諸如諧波訊號和/或雜訊訊號。音訊系統使用濾波器組(filterbank)從激發訊號生成頻帶特定訊號。頻帶特定訊號對應於頻帶。音訊系統將(多個)特徵輸入機器學習(machine learning, ML)濾波器估計器以生成與(多個)線性濾波器相關聯的(多個)參數。音訊系統將(多個)特徵輸入到語音估計器以生成(多個)增益值。音訊系統基於頻帶特定訊號的修改、根據(多個)參數應用(多個)線性濾波器、以及根據(多個)增益值使用(多個)增益放大器進行放大來生成輸出音訊訊號。
在一個示例中,提供了一種用於音訊寫碼的裝置。該裝置包括至少一個記憶體和與至少一個記憶體耦接的一個或多個處理器(例如,在電路中實施)。該一個或多個處理器被配置為並且可以:接收與音訊訊號相對應的一個或多個特徵;基於一個或多個特徵生成激發訊號;使用濾波器組從激發訊號生成多個頻帶特定訊號,其中多個頻帶特定訊號對應於多個頻帶;使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數;使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;並且基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。
在另一個示例中,提供了一種音訊寫碼的方法。該方法包括:接收與音訊訊號相對應的一個或多個特徵;基於一個或多個特徵生成激發訊號;使用濾波器組從激發訊號生成多個頻帶特定訊號,其中多個頻帶特定訊號對應於多個頻帶;使用機器學習(ML)濾波器估計器來響應於輸入一個或多個特徵到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數;使用語音估計器來響應於輸入一個或多個特徵到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。
在另一個示例中,提供了一種其上儲存有指令的非暫時性電腦可讀媒體,當由一個或多個處理器執行時,這些指令使該一個或多個處理器來:接收與音訊訊號相對應的一個或多個特徵;基於一個或多個特徵生成激發訊號;使用濾波器組從激發訊號生成多個頻帶特定訊號,其中多個頻帶特定訊號對應於多個頻帶;使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數;使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。
在另一個示例中,提供了一種用於圖像處理的裝置。該裝置包括:用於接收與音訊訊號相對應的一個或多個特徵的部件;用於基於一個或多個特徵生成激發訊號的部件;用於使用濾波器組從激發訊號生成多個頻帶特定訊號的部件,其中多個頻帶特定訊號對應於多個頻帶;用於使用機器學習(ML)濾波器估計器來響應於輸入一個或多個特徵到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數的部件;用於使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值的部件;以及用於基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號的部件。
在一些態樣中,音訊訊號是話音訊號,並且其中輸出音訊訊號是作為話音訊號的重構變體的重構話音訊號。
在一些態樣中,接收一個或多個特徵包括從編碼器接收一個或多個特徵,該編碼器至少部分地通過對音訊訊號進行編碼來生成一個或多個特徵。在一些態樣中,接收一個或多個特徵包括從話音合成器接收一個或多個特徵,該話音合成器至少部分地基於文本輸入生成一個或多個特徵,其中音訊訊號是朗讀文本輸入的語音的音訊表示。
在一些態樣中,激發訊號是與音訊訊號的諧波分量相對應的諧波激發訊號。在一些態樣中,激發訊號是與音訊訊號的雜訊分量相對應的雜訊激發訊號。
在一些態樣中,ML濾波器估計器包括一個或多個訓練的ML模型。在一些態樣中,ML濾波器估計器包括一個或多個訓練的神經網路。在一些態樣中,語音估計器包括一個或多個訓練的ML模型。在一些態樣中,語音器估計器包括一個或多個訓練的神經網路。
在一些態樣中,生成輸出音訊訊號包括使用合成濾波器組組合多個頻帶特定訊號。在一些態樣中,生成輸出音訊訊號包括通過根據一個或多個參數將一個或多個線性濾波器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。在一些態樣中,生成輸出音訊訊號包括:將多個頻帶特定訊號組合成濾波的訊號;使用第二濾波器組從濾波的訊號生成第二多個頻帶特定訊號,其中第二多個頻帶特定訊號對應於第二多個頻帶;通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號;以及組合第二多個頻帶特定訊號。在一些態樣中,生成輸出音訊訊號包括:將多個頻帶特定訊號組合成濾波的訊號;以及通過根據一個或多個增益值將一個或多個增益放大器應用於濾波的訊號來修改濾波的訊號。
在一些態樣中,生成輸出音訊訊號包括通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。在一些態樣中,生成輸出音訊訊號包括:將多個頻帶特定訊號組合成放大的訊號;使用第二濾波器組從放大的訊號生成第二多個頻帶特定訊號,其中第二多個頻帶特定訊號對應於第二多個頻帶;通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號;以及組合第二多個頻帶特定訊號。在一些態樣中,生成輸出音訊訊號包括:將多個頻帶特定訊號組合成放大的訊號;以及通過根據一個或多個增益值將一個或多個增益放大器應用於放大的訊號來修改放大的訊號。
在一些態樣中,一個或多個線性濾波器包括一個或多個時變線性濾波器。在一些態樣中,一個或多個線性濾波器包括一個或多個時不變線性濾波器。
在一些態樣中,上述的方法、裝置和電腦可讀媒體還可以包括:使用附加的線性濾波器修改輸出音訊訊號。在一些態樣中,附加的線性濾波器是時變的。在一些態樣中,附加的線性濾波器是時不變的。在一些態樣中,附加線性濾波器是線性預測寫碼(LPC)濾波器。
在一些態樣中,上述的方法、裝置和電腦可讀媒體還可以包括:在使用濾波器組從激發訊號生成多個頻帶特定訊號之前,使用附加的線性濾波器來修改激發訊號。在一些態樣,附加的線性濾波器是時變的。在一些態樣中,附加的線性濾波器是時不變的。在一些態樣中,附加線性濾波器是線性預測寫碼(LPC)濾波器。
在一些態樣中,一個或多個特徵包括一個或多個對數梅爾頻譜特徵。
在一些態樣中,與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的脈衝響應。在一些態樣中,與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的頻率響應。在一些態樣中,與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的有理傳遞函數係數。
在一些態樣中,該裝置是可穿戴設備、擴展實境設備(例如,虛擬實境(virtual reality, VR)設備、增強實境(augmented reality, AR)設備或混合實境(mixed reality, MR)設備)、頭戴式顯示器(head-mounted display, HMD)設備、無線通訊設備、行動設備(例如,行動電話和/或移動手持和/或所謂的“智慧電話”或其他行動設備)、相機、個人電腦、膝上型電腦、伺服器電腦、車輛或計算設備或車輛的組件、另一設備或它們的組合、是其一部分和/或包括其。在一些態樣中,該裝置包括一個相機或多個相機,用於捕捉一個或多個圖像。在一些態樣中,該裝置還包括顯示器,用於顯示一個或多個圖像、通知和/或其他可顯示資料。在一些態樣中,上述裝置可以包括一個或多個感測器(例如,一個或多個慣性測量單元(inertial measurement units, IMU)、諸如一個或多個陀螺計、一個或多個加速計、它們的任何組合和/或其他感測器)。
本概述並非意圖識別所要求保護的標的的關鍵或基本特徵,也非意圖孤立地用於確定所要求保護的標的的範圍。應參考本專利的整個說明書的適當部分、任何或所有的圖式以及每項請求項來理解該標的。
上述內容以及其他特徵和實施例,在參考以下說明書、申請專利範圍和圖式後將變得更加明顯。
在下面提供本揭露的某些態樣和實施例。這些態樣和實施例中的一些可以獨立應用,並且其中一些可以組合應用,這對於所屬技術領域具有通常知識者來說是顯而易見的。在下面的描述中,為了解釋的目的列出了具體的細節,以提供對本案的實施例的全面理解。然而,顯而易見的是,各種實施例可以在沒有這些具體細節的情況下實施。這些圖式和描述並不意味著是限制性的。
接下來的描述僅提供了示例性實施例,並不意圖限制本揭露的範圍、適用性或配置。相反地,接下來對示例性實施例的描述將為所屬技術領域具有通常知識者提供實現示例性實施例的實現描述。應當理解,在不偏離所附請求項中規定的本申請的精神和範圍的情況下,可以對元件的功能和排列進行各種改變。
可以對數位化音訊訊號(例如,話音訊號)執行音訊編碼(例如,話音寫碼、音樂訊號寫碼或其他類型的音訊寫碼),以壓縮資料量用於儲存、傳輸和/或其他用途。音訊解碼可以對編碼的音訊資料進行解碼,以盡可能準確地重構音訊訊號。
描述了用於音訊寫碼的系統和技術。音訊系統例如從編碼器和/或話音合成引擎接收對應於音訊訊號的(多個)特徵。音訊系統基於(多個)特徵生成激發訊號,諸如諧波訊號和/或雜訊訊號。音訊系統使用濾波器組從激發訊號生成頻帶特定訊號。頻帶特定訊號對應於頻帶。音訊系統將(多個)特徵輸入機器學習(ML)濾波器估計器以生成與(多個)線性濾波器相關聯的(多個)參數。音訊系統將(多個)特徵輸入到語音估計器以生成(多個)增益值。音訊系統基於頻帶特定訊號的修改、根據(多個)參數應用(多個)線性濾波器、以及根據(多個)增益值使用(多個)增益放大器進行放大來生成輸出音訊訊號。
本文揭露的用於音訊寫碼的系統和技術提供了相對於其他用於音訊寫碼系統和技術的各種技術改進。例如,與不將(多個)線性濾波器和/或(多個)增益放大器不同地應用於激發訊號的不同頻帶的其他系統和技術相比,本文揭露的用於音訊寫碼的系統和技術可以提供音訊訊號(諸如話音訊號)的品質改進。與不將(多個)線性濾波器和/或(多個)增益放大器不同地應用於激發訊號的不同頻帶的其他系統和技術相比,本文揭露的用於音訊寫碼的系統和技術可以提供具有減少和/或衰減的破音(overvoicing)的音訊訊號(例如,話音訊號)。與不將(多個)線性濾波器和/或(多個)增益放大器不同地應用於激發訊號的不同頻帶的其他系統和技術相比,本文揭露的用於音訊寫碼的系統和技術可以提供具有減小和/或衰減的過諧波的音訊訊號(例如,話音訊號)。與不將(多個)線性濾波器和/或(多個)增益放大器不同地應用於激發訊號的不同頻帶的其他系統和技術相比,本文揭露的用於音訊寫碼的系統和技術可以提供具有減小和/或衰減的音訊偽音(例如,金屬和/或機器人角色到語音)的音訊訊號(例如,話音訊號)。與依賴於機器學習(ML)系統來代替本文所揭露的用於音訊寫碼的系統和技術中描述的一個或多個線性濾波器的音訊寫碼系統和技術相比,本文揭露用於音訊寫碼的系統和技術可以生成和/或重構具有減小和/或衰減的複雜度的輸出音訊訊號。
本申請的各個態樣將根據這些圖式進行描述。圖1是示出具有編碼級190和解碼級195的寫碼器系統的示例架構的方塊圖100。圖1的寫碼器系統可以被稱為語音寫碼系統、語音寫碼器、語音寫碼器和/或解碼器(寫碼器)、語音寫碼器系統、話音寫碼系統、話音寫碼器、話音寫碼器、話音寫碼系統、音訊寫碼系統、音訊寫碼器、音訊寫碼器、音訊寫碼系統或它們的組合。在一些示例中,寫碼器系統包括一個或多個計算系統1000。寫碼器系統利用編碼級190和解碼級195執行音訊寫碼處理。音訊寫碼過程的編碼級190輸出(多個)特徵f[m]130。音訊寫碼過程的解碼級195接收(多個)特徵f[m]130作為輸入,並輸出輸出音訊訊號ŝ[n]150。
在一些示例中,寫碼器系統包括編碼器系統110。在一些示例中,編碼器系統110包括一個或多個計算系統1000。編碼器系統110包括編碼器115。編碼器系統110接收音訊訊號s[n]105。音訊訊號s[n]105可以表示時間(例如,沿著時間軸)n處的音訊。在一些示例中,音訊訊號s[n]105是話音訊號。在一些示例中,音訊訊號s[n]105可以包括從來自音訊源(例如,麥克風、通訊接收器和/或用戶介面)的類比話音訊號生成的數位化話音訊號。在一些示例中,話音訊號包括說出包括一個或多個單詞和/或字符的短語的語音的音訊表示。在一些示例中,音訊訊號s[n]105可以由編碼器系統110使用濾波器來消除混疊、由採樣器來轉換為離散時間以及由類比數位轉換器將類比訊號轉換到數位域來處理。在一些示例中,音訊訊號s[n]105是具有也被離散化的採樣值(這裡稱為採樣)的離散時間話音訊號。
音訊訊號s[n]105的採樣可以被劃分為每個N個採樣的區塊,其中N個採樣的區塊被稱為幀。在一個說明性示例中,每個幀的長度可以是10-20毫秒(milliseconds, ms)。在一些示例中,對應於音訊訊號s[n]105和/或輸出音訊訊號ŝ[n]150的時間n可以表示對應於一個或多個幀的特定集合的時間,諸如幀m。在一些示例中,特徵f[m]130對應於包括時間n的幀m。
編碼器系統110使用音訊訊號s[n]105作為編碼器115的輸入。編碼器系統110使用編碼器115來響應於音訊訊號s[n]105輸入到編碼器115來確定、量化、估計和/或生成特徵f[m]130。特徵f[m]130可以表示壓縮的訊號(包括較低位元率的資料串流),其使用盡可能少的位元來表示音訊訊號s[n]105,同時試圖維持話音的特定品質水平。編碼器115可以使用任何合適的音訊和/或語音寫碼算法,諸如線性預測寫碼算法(例如,碼激發線性預測(Code-excited linear prediction, CELP)、代數CELP(algebraic-CELP, ACELP)或其他線性預測技術)或其他語音寫碼算法。
編碼器115可以壓縮音訊訊號s[n]105以試圖降低音訊訊號s[n]105的位元率。訊號的位元率基於採樣頻率和每個採樣的位元數。例如,話音訊號的位元率可以如下確定:
其中BR是位元率,S是採樣頻率,並且b是每個採樣的位元數。在一個說明性示例中,在8千赫茲(kilohertz, kHz)的採樣頻率(frequency, S)和16位元/採樣(bits per sample, b)下,訊號的位元率將是128千位元/秒(kilobits per second, kbps)的位元率。
在一些示例中,寫碼器系統包括話音合成系統125。在一些示例中,話音合成系統125包括一個或多個計算系統1000。編碼器系統110接收媒體資料m[n]120。在一些示例中,媒體資料m[n]120包括文本和/或字母數字字符的字符串。在一些示例中,媒體資料m[n]120包括描繪文本和/或字母數字字符的字符串的圖像。在一些示例中,媒體資料m[n]120的文本和/或字母數字字符的字符串包括包含一個或多個單詞和/或字符的短語。話音合成系統125使用媒體資料m[n]120作為話音合成的輸入。話音合成系統125使用話音合成來響應於媒體資料m[n]120輸入到話音合成系統125而生成特徵f[m]130。在一些示例中,特徵f[m]130是朗讀媒體資料m[n]120中的文本和/或字母數字字符的字符串的語音的音訊表示的特徵。在一些示例中,話音合成系統125使用話音合成演算法從媒體資料m[n]120生成特徵f[m]130,諸如文本到話音(text-to-speech, TTS) 演算法、話音電腦演算法、話音合成器演算法、連接合成演算法、單元選擇合成演算法、雙音合成演算法、域特定合成演算法、發音合成演算法、基於隱馬爾可夫模型(hidden Markov model, HMM)的合成演算法、正弦波合成演算法、基於深度學習的合成演算法、自監督學習合成演算法、零樣本(zero-shot)說話人自適應合成演算法、神經聲碼器合成演算法或它們的組合。
寫碼器系統包括解碼器系統140。在一些示例中,解碼器系統140包括一個或多個計算系統1000。解碼器系統140包括解碼器145。解碼器系統140接收特徵f[m]130。在一些示例中,解碼器系統140從編碼器系統110接收特徵f[m]130。在一些示例中,解碼器系統140從話音合成系統125接收特徵f[m]130。在一些示例中,特徵f[m]130對應於音訊訊號s[n]105(例如,話音訊號)和/或媒體資料m[n]120(例如,文本和/或字母數字字符的字符串)。解碼器系統140使用特徵f[m]130作為解碼器145的輸入。解碼器系統140使用解碼器145來響應於特徵f[m]130輸入到解碼器145而生成輸出音訊訊號ŝ[n]150。輸出音訊訊號ŝ[n]150可以被稱為重構話音訊號。輸出音訊訊號ŝ[n]150可以是音訊訊號s[n]105(例如,話音訊號)的重構變體。輸出音訊訊號ŝ[n]150可以近似音訊訊號s[n]105(例如,話音訊號)。在這樣的示例中,寫碼器系統可以將損失160確定為音訊訊號s[n]105和輸出音訊訊號ŝ[n]150之間的時間n的差。
在一些示例中,特徵f[m]130表示來自編碼器系統110和/或話音合成系統125的、可以儲存和/或發送到解碼器系統140的壓縮話音訊號。在一些示例中,解碼器系統140可以與編碼器系統110和/或話音合成系統125進行通訊,諸如以向編碼器系統110或/或話音合成系統125請求話音資料、發送反饋資訊和/或提供其他通訊。在一些示例中,編碼器系統110和/或話音合成系統125可以在壓縮話音訊號被發送到解碼器系統140之前對壓縮話音訊號執行通道寫碼。例如,通道寫碼可以對壓縮話音訊號的位元串流提供錯誤保護,以保護位元串流免受在通訊通道上傳輸期間可能發生的雜訊和/或干擾。
在一些示例中,解碼器145可以解碼和/或解壓縮由特徵f[m]130表示的音訊訊號s[n]105的編碼和/或壓縮變體,以生成輸出音訊訊號ŝ[n]150。在一些示例中,輸出音訊訊號ŝ[n]150包括可以具有與音訊訊號s[n]105相同或相似的位元率的數位化、離散的時間訊號。解碼器145可以使用由編碼器115使用的音訊和/或語音寫碼演算法的逆,其如上所述可以包括任何合適的音訊編碼演算法,諸如線性預測寫碼演算法(例如,CELP、ACELP或其他合適的線性預測技術)或其他音訊和/或語音寫碼演算法。在一些情況下,諸如通過執行數位類比轉換和抗混疊濾波,解碼器系統140可以將輸出音訊訊號ŝ[n]150轉換為連續時間類比訊號。
寫碼器系統可以利用話音訊號為高度相關波形的事實。輸入話音訊號的採樣可以被劃分為每個N個採樣的區塊,其中N個採樣的區塊被稱為幀。在一個說明性示例中,每個幀的長度可以是10-20毫秒(ms)。在一些示例中,對應於音訊訊號s[n]105、特徵f[m]130和/或輸出音訊訊號ŝ[n]150的時間n可以表示與一個或多個幀的特定集合相對應的時間。各種語音寫碼演算法可以被用於編碼話音訊號,諸如音訊訊號s[n]105。例如,碼激發線性預測(CELP)是語音寫碼演算法的一個示例。CELP模型是基於話音產生(speech production)的源濾波器模型,該模型假設聲帶是頻譜平坦的聲音(激發訊號)的源,並且聲道充當濾波器以對各種話音聲進行頻譜整形。可以通過它們的激發(源)和頻譜整形(濾波器)來區分不同的音位(例如,母音、擦音和語音擦音)。
通常,CELP使用線性預測(linear prediction, LP)模型對聲道進行建模,並使用固定編碼簿(fixed codebook, FCB)的條目作為LP模型的輸入。例如,可以使用長期線性預測來建模話音訊號的基音,並且可以使用短期線性預測來建模話音訊號的頻譜形狀(音位)。FCB中的條目基於在執行長期和短期線性預測建模之後剩餘的殘差訊號的寫碼。例如,長期線性預測和短期線性預測模型可以被用於話音合成,並且可以在編碼期間搜索固定編碼簿(FCB)以定位用於輸入到長期和短期線性模型的最佳殘差。FCB提供短期和長期線性預測模型未捕獲的殘差話音分量。可以基於逐合成分析過程在編碼器處選擇殘差和對應的索引,該處理被執行以選擇最佳參數,從而盡可能接近地匹配原始話音訊號。索引可以被發送到解碼器145,其可以基於索引從FCB中提取對應的LTP殘差。
在一些示例中,特徵f[m]130表示線性預測(LP)係數、基音、增益、預測誤差、基音滯後、週期、基音相關性、巴克倒頻譜系數、對數梅爾頻譜圖、基頻和/或它們的組合。圖2、圖3、圖4、圖5、圖6、圖7A、圖7B和圖8中示出了解碼器系統140和/或解碼器145和/或其部分的示例。
圖2是示出利用機器學習(ML)濾波器估計器205來生成用於諧波激發訊號p[n]215的線性濾波器230的濾波器參數235並且生成用於雜訊激發訊號u[n]225的線性濾波器240的濾波器參數245的寫碼器系統的示例的方塊圖200。圖2的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。寫碼器系統接收特徵f[m]130。在一些示例中,圖2的寫碼器系統可以是神經同態聲碼器。
圖2的寫碼器系統包括諧波激發生成器210。諧波激發生成器210可以被稱為脈衝串生成器。諧波激發生成器210接收特徵f[m]130作為輸入。響應於接收特徵f[m]130作為輸入,諧波激發生成器210基於特徵f[m]130生成諧波激發訊號p[n]215。諧波激發訊號p[n]215可以被稱為脈衝串。諧波激發生成器210可以基於基音和/或基音週期生成諧波激發訊號p[n]215。基音和/或基音週期可以是時變的,並且因此可以基於時間n而不同。在一些示例中,基音和/或基音週期被包括作為特徵f[m]130中的一個或多個。在一些示例中,特徵f[m]130缺少作為(多個)特徵的基音和/或基音週期,但是諧波激發生成器210基於特徵f[m]130確定和/或估計基音和/或基音週期。基音和/或基音週期可以與音訊訊號s[n]105中的語音/話音的基音和/或基音週期匹配、基於其或以其他方式與其相關聯。基音和/或基音週期可以由話音合成系統125基於媒體資料m[n]120中的文本和/或字符的字符串來確定和/或估計。在一些示例中,諧波激發生成器210可以包括基音追蹤器,其從特徵f[m]130和/或基於其來識別基音和/或基音週期。
圖2的寫碼器系統包括雜訊生成器220。在一些示例中,雜訊生成器220接收特徵f[m]130作為輸入。在一些示例中,雜訊生成器220不接收特徵f[m]130作為輸入。雜訊生成器220生成雜訊激發訊號u[n]225。在一些示例中,響應於接收特徵f[m]130作為輸入,雜訊生成器220基於特徵f[m]130生成雜訊激發訊號u[n]225。在一些示例中,雜訊生成器220不基於任何特徵f[m]130而生成雜訊激發訊號u[n]225。在一些示例中,雜訊生成器220包括隨機雜訊生成器。在一些示例中,雜訊激發訊號u[n]225包括隨機雜訊。在一些示例中,雜訊生成器220可以從高斯分佈中採樣雜訊激發訊號u[n]225。
圖2的寫碼器系統包括用於諧波激發訊號p[n]215的線性濾波器230。圖2的寫碼器系統包括用於雜訊激發訊號p[n]225的線性濾波器240。圖2的寫碼器系統包括機器學習(ML)濾波器估計器205。ML濾波器估計器205接收特徵f[m]130作為輸入。ML濾波器估計器205響應於接收到與時間n相對應的幀m的特徵f[m]130作為輸入,基於與時間n相對應的幀m的特徵f[m]130生成用於線性濾波器230的與幀m和/或時間n相對應的一個或多個濾波器參數235。濾波器參數235可以包括脈衝響應h
h[m,n]。ML濾波器估計器205響應於接收到時間n的特徵f[m]130作為輸入,基於時間n的特徵f[m]130生成用於線性濾波器240的與幀m和/或時間n相對應的的一個或多個濾波器參數245。濾波器參數235可以包括脈衝響應h
n[m,n]。濾波器參數235和/或濾波器參數245可以包括例如脈衝響應、頻率響應、有理傳遞函數係數或它們的組合。
ML濾波器估計器205可以包括一個或多個訓練的ML模型。在一些示例中,ML濾波器估計器205和/或ML濾波器估計器205的一個或多個訓練的ML模型可以包括例如一個或多個神經網路(neural network, NN)(例如,神經網路800)、一個或多個捲積神經網路(convolutional neural networks, CNN)、一個或多個訓練的時延神經網路(time delay neural networks, TDNN)、一個或多個深度網路、一個或多個自動編碼器、一個或多個深度信念網路(deep belief nets, DBN)、一個或多個遞歸神經網路(recurrent neural networks, RNN)、一個或多個生成對抗網路(generative adversarial networks, GAN)、一個或多個其他類型的神經網路、一個或多個訓練的支持向量機(support vector machines, SVM)、一個或多個訓練的隨機森林(random forests, RF)或它們的組合。
在一些示例中,線性濾波器230是時變的(例如,每幀),例如,因為ML濾波器估計器205通過提供時間n的一個或多個濾波器參數235來針對每個時間n(例如,針對每個幀)更新線性濾波器230。在其中線性濾波器230為時變的示例中,線性濾波器230可以被稱為線性時變(linear time-varying, LTV)濾波器和/或諧波LTV濾波器。在一些示例中,線性濾波器240是時變的(例如,每幀),例如,因為ML濾波器估計器205通過提供時間n的一個或多個濾波器參數245來針對每個時間n(例如,針對每個幀)更新線性濾波器240。在其中線性濾波器240為時變的示例中,線性濾波器240可以被稱為LTV濾波器和/或作為雜訊LTV濾波器。如關於這些線性時變(LTV)濾波器所討論的,時間可以指訊號時間軸,而不是壁(wall)或處理時間。
線性濾波器230從諧波激發生成器210接收諧波激發訊號p[n]215作為輸入。線性濾波器230從ML濾波器估計器205接收濾波器參數235作為輸入。線性濾波器230通過根據濾波器參數235使用線性濾波器230對諧波激發訊號p[n]215進行濾波來生成諧波濾波的訊號s
h[n]250。
線性濾波器240從雜訊生成器220接收雜訊激發訊號u[n]225作為輸入。雜訊生成器220可以被稱為雜訊激發生成器220。線性濾波器240從ML濾波器估計器205接收濾波器參數245作為輸入。線性濾波器240通過根據濾波器參數245使用線性濾波器240對雜訊激發訊號u[n]225進行濾波來生成雜訊濾波的訊號s
n[n]255。
圖2的寫碼器系統包括加法器260。加法器260將諧波濾波的訊號s
h[n]250和雜訊濾波的訊號s
n[n]255組合成組合的音訊訊號,例如,通過對訊號求和、相加和/或以其他方式組合。圖2的寫碼器系統包括線性濾波器265。線性濾波器265可以是時變的或時不變的。線性濾波器265接收組合的音訊訊號作為輸入。線性濾波器265通過對組合的音訊訊號進行濾波來生成輸出音訊訊號ŝ[n]150。線性濾波器265可以被稱為後濾波器。在一些示例中,線性濾波器265是線性預測寫碼(LPC)濾波器。
在一些示例中,線性濾波器265可以在使用線性濾波器230對諧波激發訊號p[n]215進行濾波之前應用於諧波激發訊號p[n]215,而不是應用於組合的音訊訊號,或者在應用於組合的音訊訊號之外還應用於諧波激發訊號p[n]215。在一些示例中,線性濾波器265可以在使用線性濾波器240對雜訊激發訊號u[n]225進行濾波之前應用於雜訊激發訊號u[n]225,而不是應用於組合的音訊訊號,或者在應用於組合的音訊訊號之外還應用於雜訊激發訊號u[n]225。在一些示例中,線性濾波器265可以在生成組合的音訊訊號之前應用於諧波濾波的訊號s
h[n]250,而不是應用於組合的音訊訊號,或者在應用於組合的音訊訊號之外還應用於諧波濾波的訊號s
h[n]250。在一些示例中,線性濾波器265可以在生成組合的音訊訊號之前應用於雜訊濾波的訊號s
n[n]255,而不是應用於組合的音訊訊號,或者在應用於組合的音訊訊號之外還應用於雜訊濾波的訊號s
n[n]255。線性濾波器265可以被稱為預濾波器。在一些示例中,線性濾波器265表示話音產生中的聲門脈衝、聲道和/或輻射的(多個)效果。
圖2的寫碼器系統可以基於使用ML濾波器估計器205控制的諧波分量和雜訊分量來重構和/或生成輸出音訊訊號ŝ[n]150,該過程可以被稱為可微分數位訊號處理(differentiable digital signal processing, DDSP)。諧波分量可以包括濁音中的週期性振動。諧波分量可以使用使用了線性濾波器230進行濾波的諧波激發訊號p[n]215來建模。雜訊分量可以包括背景雜訊、清音和/或濁音中的隨機分量。雜訊分量可以使用使用了線性濾波器230進行濾波的諧波激發訊號p[n]215來建模。
如上關於圖1所述,特徵f[m]130對應於包括時間n的幀m。音訊訊號s[n]105和輸出音訊訊號ŝ[n]150可以被劃分為具有幀長度L的非重疊幀。在一些示例中,幀索引為m,離散時間索引為n,並且特徵索引為c。幀的總數(M)和採樣點的總數(N)可以遵循N=M×L。f
0、S、h
h、h
n中,0≤m<M-1。項s、p、u、S
h、S
n、可以是有限持續時間訊號,其中0≤n<N-1。脈衝響應h
h和h
n可以無限長,其中
。脈衝響應h可能是因果的,其中
、E、Z並且n≥0。
為了執行話音合成過程,諧波激發生成器210可以從由諧波激發生成器210的基音追蹤器基於特徵f[m]130識別的逐幀基頻f
0[m]生成諧波激發訊號p[n]215。在說明性示例中,諧波激發生成器210可以使用加法合成生成將是無混疊且在時間上離散的諧波激發訊號p[n]215。例如,如下面的等式(1)中所示,諧波激發生成器210可以使用正弦曲線的低通和(sum)來生成諧波激發訊號p(t):
(1) |
其中f
0(t)通過零階保持(zero-order hold)或線性插值從f0[m]重建,p[n]=p(n/f
s),並且f
s是采樣率。在一些情況下,加法合成的計算複雜性可以通過近似來降低。例如,諧波激發生成器210或寫碼器系統的其他組件(例如,處理器)可以將基本週期舍入為採樣週期的最接近倍數。在這樣的示例中,諧波激發訊號p[n]215是離散的和/或稀疏的。諧波激發生成器210可以順序地(例如,一次一個基音標記)生成諧波激發訊號p[n]215。
給定由特徵提取引擎從輸入X[n]中提取的特徵f[m]130,ML濾波器估計器205可以估計每個幀的脈衝響應h
h[m,n](作為濾波器參數235的一部分)和hn[m,n](作為濾波參數245的一部分)。在一些態樣中,複倒頻譜(
和
)可以被用作ML濾波器估計器205的脈衝響應(h
h和h
n)的內部描述。複倒頻譜同時描述了濾波器的振幅響應和群延遲。濾波器的群延遲會影響話音的音色(timbre)。在一些情況下,代替使用線性相位或最小相位濾波器,ML濾波器估計器205可以使用混合相位濾波器,具有從資料集學習的相位特性。
在一些示例中,可以限制複倒頻譜的長度,實質上限制振幅和相位響應的細節級別。限制複倒頻譜的長度可以被用於控制濾波器的複雜性。在一些示例中,ML濾波器估計器205可以預測低頻係數,其中高頻倒頻譜系數可以被設置為零。倒頻譜的軸可以被稱為反頻率。在一些情況下,ML濾波器估計器205可以預測低反頻率係數,其中高反頻率倒頻譜系數可以被設置為零。在說明性示例中,在每個幀中預測兩個10毫秒(ms)長的複倒頻譜。在一些情況下,ML濾波器估計器205可以使用離散傅立葉變換(discrete Fourier transform, DFT)和逆DFT(inverse-DFT, IDFT)來生成脈衝響應h
h和h
n。在一些情況下,ML濾波器估計器205可以使用有限脈衝響應(Finite impulse responses, FIR)來近似無限脈衝響應(infinite impulse response, IIR)(h
e[m,n]和h
n[m,n])。DFT大小可以被設置為至少臨限值大小(例如,N=1024)以避免混疊。
圖3是示出寫碼器系統的示例的方塊圖300,其利用機器學習(ML)濾波器估計器305來生成用於諧波激發訊號215的線性濾波器320的濾波器參數325並且生成用於雜訊激發訊號225的線性濾波器330的濾波器參數335,並且利用語音估計器307來生成用於諧波激發訊號215的增益放大器360的增益參數365並且生成用於雜訊激發訊號225的增益放大器370的增益參數375。圖3的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。寫碼器系統接收特徵f[m]130。
圖3的寫碼器系統包括圖2的諧波激發生成器210,其基於特徵f[m]130生成諧波激發訊號p[n]215。圖3的寫碼器系統包括圖2的雜訊激發生成器220,其基於特徵f[m]130生成雜訊激發訊號u[n]225。
圖3的寫碼器系統包括分析濾波器組310。分析濾波器組310可以接收諧波激發訊號p[n]215作為輸入。分析濾波器組310可以包括帶通濾波器陣列,其將其輸入訊號分離成對應於多個頻帶的多個分量,每個頻帶是輸入訊號的頻帶的子頻帶。分析濾波器組310使用其帶通濾波器陣列將諧波激發訊號p[n]215分離成J個分量訊號,表示為p
1[n]、p
2[n]、…p
J[n]。圖3的寫碼器系統包括一組線性濾波器320。線性濾波器320包括J個線性濾波器,其中每個J個分量訊號一個線性濾波器。例如,線性濾波器320可以包括用於p
1[n]的線性濾波器、用於p
2[n]的線性濾波器、用於p
J[n]的線性濾波器,以及用於p
2[n]和p
J[n]之間的頻帶的每個分量訊號的線性濾波器。
圖3的寫碼器系統包括分析濾波器組315。分析濾波器組315可以接收雜訊激發訊號u[n]225作為輸入。分析濾波器組315可以包括帶通濾波器陣列,其將其輸入訊號分離成對應於多個頻帶的多個分量,每個頻帶是輸入訊號的頻帶的子頻帶。分析濾波器組315使用其帶通濾波器陣列將雜訊激發訊號u[n]225分離成K個分量訊號,表示為u
1[n]、u
2[n]、…u
K[n]。圖3的寫碼器系統包括一組線性濾波器330。線性濾波器330包括K個線性濾波器,其中每個K個分量訊號一個線性濾波器。例如,線性濾波器330可以包括用於u
1[n]的線性濾波器、用於u
2[n]的線性濾波器、用於u
K[n]的線性濾波器,以及用於u
2[n]和u
K[n]之間的頻帶的每個分量訊號的線性濾波器。
圖3的寫碼器系統包括ML濾波器估計器305。ML濾波器估計器305接收特徵f[m]130作為輸入。ML濾波器估計器305可以是ML濾波器估計器205的示例,但是被修改為為對應於不同頻帶的不同分量訊號提供單獨的濾波器參數。例如,ML濾波器估計器305生成用於線性濾波器320的濾波器參數325,並生成用於線性濾波器330的濾波器參數335。對於線性濾波器320的不同線性濾波器,濾波器參數325可以是不同的。例如,濾波器參數325可以包括線性濾波器320的第一線性濾波器的第一組濾波器參數、線性濾波器320的第二線性濾波器的第二組濾波器參數等等,直到線性濾波器320的第J線性濾波器的第J組濾波器參數。相似地,對於線性濾波器330的不同線性濾波器,濾波器參數335可以是不同的。例如,濾波器參數335可以包括線性濾波器330的第一線性濾波器的第一組濾波器參數、線性濾波器330的第二線性濾波器的第二組濾波器參數等等,直到線性濾波器330的第K線性濾波器的第K組濾波器參數。ML濾波器估計器205可以包括一個或多個訓練的ML模型。在一些示例中,ML濾波器估計器205和/或ML濾波器估計器205的一個或多個訓練的ML模型可以包括例如一個或多個神經網路(NN)(例如,神經網路800)、一個或多個捲積神經網路(CNN)、一個或多個訓練的時延神經網路(TDNN)、一個或多個深度網路、一個或多個自動編碼器、一個或多個深度信念網路(DBN)、一個或多個遞歸神經網路(RNN)、一個或多個生成對抗網路(GAN)、一個或多個其他類型的神經網路、一個或多個訓練的支持向量機(SVM)、一個或多個訓練的隨機森林(RF)或它們的組合。
圖3的寫碼器系統根據濾波器參數325將線性濾波器320應用於諧波激發訊號p[n]215的J個分量訊號p
1[n]、p
2[n]、…p
J[n](作為分析濾波器組310輸出),以生成J個濾波的分量訊號。例如,圖3的寫碼器系統根據濾波器參數325的第一組濾波器參數將線性濾波器320中的第一濾波器應用於第一分量訊號p
1[n],根據濾波器參數325的第二組濾波器參數將線性濾波器320中的第二濾波器應用於第二分量訊號p
2[n],等等。線性濾波器320可以是線性時變(LTV)濾波器,例如,基於時間n和/或幀m而變化。圖3的寫碼器系統包括合成濾波器組340。合成濾波器組340將濾波的分量訊號組合成具有與諧波激發訊號p[n]215的頻帶匹配(或類似)的頻帶的組合的訊號。合成濾波器組340輸出組合的訊號,其可以被稱為濾波的諧波激發訊號s
h[n]。在一些情況下,分析濾波器組310、線性濾波器320和/或合成濾波器組340對諧波激發訊號p[n]215的應用可以被稱為解碼過程的濾波器級390H。解碼過程的濾波器級390H之後可以是解碼過程的增益級395H。
圖3的寫碼器系統根據濾波器參數335將線性濾波器330應用於雜訊激發訊號u[n]225的K個分量訊號u
1[n]、u
2[n]、…u
K[n](作為分析濾波器組315輸出),以生成K個濾波的分量訊號。例如,圖3的寫碼器系統根據濾波器參數335的第一組濾波器參數將線性濾波器330中的第一濾波器應用於第一分量訊號u
1[n],根據濾波器參數335的第二組濾波器參數將線性濾波器330中的第二濾波器應用於第二分量訊號u
2[n],等等。線性濾波器330可以是線性時變(LTV)濾波器,例如,基於時間n和/或幀m而變化。圖3的寫碼器系統包括合成濾波器組345。合成濾波器組345將濾波的分量訊號組合成具有與雜訊激發訊號u[n]225的頻帶匹配(或類似)的頻帶的組合的訊號。合成濾波器組345輸出組合的訊號,其可以被稱為濾波的雜訊激發訊號s
n[n]。在一些情況下,分析濾波器組315、線性濾波器330和/或合成濾波器組345對雜訊激發訊號u[n]225的應用可以被稱為解碼過程的濾波器級390N。解碼過程的濾波器級390N之後可以是解碼過程的增益級395N。
ML濾波器估計器305響應於接收到與時間n相對應的幀m的特徵f[m]130作為輸入,基於與時間n相對應的幀m的特徵f[m]130生成用於線性濾波器320的與幀m和/或時間n相對應的一個或多個濾波器參數325。濾波器參數325可以包括脈衝響應h
h[m,n]。ML濾波器估計器305響應於接收到時間n的特徵f[m]130作為輸入,基於時間n的特徵f[m]130生成用於線性濾波器330的與幀m和/或時間n相對應的一個或多個濾波器參數335。濾波器參數335可以包括脈衝響應h
n[m,n]。濾波器參數325和/或濾波器參數335可以包括例如脈衝響應、頻率響應、有理傳遞函數係數或它們的組合。
圖3的寫碼器系統包括分析濾波器組350。分析濾波器組350可以從合成濾波器組340接收濾波的諧波激發訊號s
h[n]作為輸入。分析濾波器組350使用其帶通濾波器陣列將濾波的諧波激發訊號s
h[n]分離成Q個分量訊號,表示為s
h1[n]、s
h2[n]、…s
hQ[n]。圖3的寫碼器系統包括一組增益放大器360。增益放大器360包括Q個增益放大器,其中Q個分量訊號中的每一個一個增益放大器。例如,增益放大器360可以包括用於s
h1[n]的增益放大器、用於s
h2[n]的增益放大器、用於s
hQ[n]的增益放大器,以及用於s
h2[n]和s
hQ[n]之間的頻帶的每個分量訊號的增益放大器。
圖3的寫碼器系統包括分析濾波器組355。分析濾波器組355可以從合成濾波器組345接收濾波的雜訊激發訊號s
n[n]作為輸入。分析濾波器組355使用其帶通濾波器陣列將濾波的雜訊激發訊號s
n[n]分離成R個分量訊號,表示為s
n1[n]、s
n2[n]、…s
nR[n]。圖3的寫碼器系統包括一組增益放大器370。增益放大器370包括R個增益放大器,其中R個分量訊號中的每一個一個增益放大器。例如,增益放大器370可以包括用於s
n1[n]的增益放大器、用於s
n2[n]的增益放大器、用於s
nR[n]的增益放大器,以及用於s
n2[n]和s
nR[n]之間的頻帶的每個分量訊號的增益放大器。
圖3的寫碼器系統包括語音估計器307。語音估計器307接收特徵f[m]130作為輸入。語音估計器307基於特徵f[m]130生成增益放大器360的增益參數365。語音估計器307基於特徵f[m]130生成增益放大器370的增益參數375。增益參數365可以是增益放大器360用來將濾波的諧波激發訊號s
h[n]的Q個分量訊號(s
h1[n]、s
h2[n]、…s
hQ[n])中的每一個的振幅相乘以生成Q個放大的分量訊號的乘法器。由語音估計器307生成的增益參數365可以包括針對Q個分量訊號(s
h1[n]、s
h2[n]、…s
hQ[n])中的每一個的不一樣的、不同的和/或單獨的增益參數。對於增益放大器360的不同增益放大器,增益參數365可以是不同的。例如,增益參數365可以包括增益放大器360的第一增益放大器的第一組增益參數、增益放大器360的第二增益放大器的第二組增益參數等等,直到增益放大器360的第Q增益放大器的第Q組增益參數。
增益參數375可以是增益放大器370用來將濾波的雜訊激發訊號s
n[n]的R個分量訊號(s
n1[n]、s
n2[n]、…s
nR[n])中的每一個的振幅相乘以生成R個放大的分量訊號的乘法器。由語音估計器307生成的增益參數375可以包括針對R個分量訊號(s
n1[n]、s
n2[n]、…s
nR[n])中的每一個的不一樣的、不同的和/或單獨的增益參數。對於增益放大器370的不同增益放大器,增益參數375可以是不同的。例如,增益參數375可以包括增益放大器370的第一增益放大器的第一組增益參數、增益放大器370的第二增益放大器的第二組增益參數等等,直到增益放大器370的第R增益放大器的第
R組增益參數。
增益參數365和/或增益參數375可以被稱為增益、增益乘數、增益值、乘數、乘數值、增益乘數值或它們的組合。與Q個分量訊號(s
h1[n]、s
h2[n],…s
hQ[n])相對應的增益參數365可以被稱為Q個增益參數365(a
1[n]、a
2[n]、…a
Q[n])。與R個分量訊號(s
n1[n]、s
n2[n],…s
nR[n])相對應的增益參數375可以被稱為R個增益參數375(b
1[n]、b
2[n]、…b
R[n])。在一些示例中,Q=R。在Q=R的示例中,然後對於任何帶i,a
i[n]和b
i[n]可以是任何實數,使得a
i[n]≥0,b
i[n]≥0,並且a
i[n]+b
i[n]=1。
語音估計器307可以包括並且可以使用一個或多個ML系統、一個或多個ML模型或它們的組合來生成增益參數365和/或增益參數375。在一些示例中,語音估計器307和/或語音估計器307的一個或多個訓練的ML模型可以包括例如一個或多個神經網路(NN)(例如,神經網路800)、一個或多個捲積神經網路(CNN)、一個或多個訓練的時延神經網路(TDNN)、一個或多個深度網路、一個或多個自動編碼器、一個或多個深度信念網路(DBN)、一個或多個遞歸神經網路(RNN)、一個或多個生成對抗網路(GAN)、一個或多個其他類型的神經網路、一個或多個訓練的支持向量機(SVM)、一個或多個訓練的隨機森林(RF)或它們的組合。
圖3的寫碼器系統包括合成濾波器組380。合成濾波器組380將由增益放大器360放大的Q個放大的分量訊號組合成具有與諧波激發訊號h[n]215的頻帶匹配(或類似)的頻帶的組合的訊號。合成濾波器組380輸出組合的訊號,其可以被稱為放大的諧波激發訊號s
h ’[n]。在一些情況下,分析濾波器組350、增益放大器360和/或合成濾波器組380對諧波激發訊號h[n]215的應用可以被稱為解碼過程的增益級395H。
圖3的寫碼器系統包括合成濾波器組385。合成濾波器組385將由增益放大器370放大的R個放大的分量訊號組合成具有與雜訊激發訊號u[n]225的頻帶匹配(或類似)的頻帶的組合的訊號。合成濾波器組385輸出組合的訊號,其可以被稱為放大的雜訊激發訊號s
n ’[n]。在一些情況下,分析濾波器組355、增益放大器370和/或合成濾波器組385對雜訊激發訊號u[n]225的應用可以被稱為解碼過程的增益級395N。
圖3的寫碼器系統包括加法器260。加法器260將由合成濾波器組380輸出的放大諧波激發訊號s
h ’[n]和由合成濾波器組385輸出的放大的雜訊激發訊號s
n ’[n]組合成組合的音訊訊號,例如,通過對訊號求和、相加和/或以其他方式組合。圖3的寫碼器系統包括線性濾波器265。線性濾波器265可以是時變的或時不變的。線性濾波器265接收組合的音訊訊號作為輸入。線性濾波器265通過對組合的音訊訊號進行濾波來生成輸出音訊訊號ŝ[n]150。線性濾波器265可以被稱為後濾波器。在一些示例中,線性濾波器265是線性預測寫碼(LPC)濾波器。由於圖3的寫碼器系統的多頻帶濾波和多頻帶增益,圖3的輸出音訊訊號ŝ[n]150可以不同於圖2的輸出音訊訊號ŝ[n]150。
在一些示例中,增益級395H和/或增益級395N提供精細粒度子帶語音控制。在一些示例中,增益級395H和/或增益級395N提供微調雜訊和諧波混合,以減輕破音。在一些示例中,增益級395H和/或增益級395N允許細粒度子帶語音控制,例如,通過在增益級395H和/或增益級395N中具有大量頻帶,同時保持濾波器級390H和/或濾波器級390N中的頻帶數量相對較低,以保持ML濾波器估計器305的複雜性相對較低。對於語音估計器307來說,大量的頻帶不太複雜,因為在一些情況下,語音估計器307可能僅輸出每個頻帶的單個值(增益),而每個頻帶的濾波器參數可能更複雜。
諧波激發訊號p[n]215從諧波激發生成器210處產生到放大的諧波激發訊號s
h ’[n]從合成濾波器組380輸出到加法器260的訊號路徑可以被稱為圖3的寫碼器系統的諧波訊號路徑。雜訊激發訊號u[n]225從雜訊生成器220處產生到放大的雜訊激發訊號s
n ’[n]從合成濾波器組385輸出到加法器260的訊號路徑可以被稱為圖3的寫碼器系統的雜訊訊號路徑。
圖3的寫碼器系統的四個分析濾波器組包括諧波訊號路徑的濾波器級390H上的分析濾波器組310、諧波訊號路徑增益級395H上的分析濾波器組350、雜訊訊號路徑濾波器級390N上的分析濾波器組315和雜訊訊號路徑增益級395N上的分析濾波器組355。四個分析濾波器組中的任意兩個可以具有相同或不同的頻帶數量。例如,J、K、Q和R中的任意兩個可以彼此相等或不同。四個分析濾波器組中的任意兩個可以具有相同或不同頻帶寬度。四個分析濾波器組中的任何一個都可以使其頻帶均勻分佈。四個分析濾波器組中的任何一個都可以使其頻帶不均勻分佈。
圖4是示出省略440濾波器級390H的合成濾波器組340的寫碼器系統的一部分的示例的方塊圖400。圖4的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。相對於圖3的寫碼器系統,從圖4的寫碼系統中省略440合成濾波器組340意味著由線性濾波器320輸出的J個濾波分量訊號中的每一個被輸出到相應的分析濾波器組以進一步分成更多的子帶。
例如,圖4的寫碼器系統根據濾波器參數325的第一組濾波器參數將線性濾波器320中的第一濾波器應用於第一分量訊號p
1[n],以產生第一濾波的訊號。第一濾波的訊號由第一分析濾波器組410接收,並被分成多個子帶訊號。第一組增益放大器415從第一分析濾波器組410接收多個子帶訊號,並根據增益參數365的至少第一子組放大多個子帶,以產生被發送到合成濾波器組380的放大的子帶訊號。
相似地,圖4的寫碼器系統根據濾波器參數325的第二組濾波器參數將線性濾波器320中的第二濾波器應用於第二分量訊號p
2[n],以產生第二濾波的訊號。第二濾波的訊號由第二分析濾波器組420接收,並被分成多個子帶訊號。第二組增益放大器425從第二分析濾波器組420接收多個子帶訊號,並根據增益參數365的至少第二子組放大多個子帶,以產生被發送到合成濾波器組380的放大的子帶訊號。
相似地,圖4的寫碼器系統根據濾波器參數325的第J組濾波器參數將線性濾波器320中的第J濾波器應用於第J分量訊號p
J[n],以產生第J濾波的訊號。第J濾波的訊號由第J分析濾波器組430接收,並被分成多個子帶訊號。第J組增益放大器435從第J分析濾波器組430接收多個子帶訊號,並根據增益參數365的至少第J子組放大多個子帶,以產生被發送到合成濾波器組380的放大的子帶訊號。
合成濾波器組380將來自第一組增益放大器415、第二組增益放大器425、第J組增益放大器435以及其間的任何其他組增益放大器的所有放大的子帶訊號組合成放大的諧波激發訊號s
h ’[n]。圖4的寫碼器系統的放大的諧波激發訊號s
h ’[n]可以不同於圖3的放大的諧波激發訊號s
n ’[n]。
圖4中僅示出了寫碼器系統的諧波訊號路徑。應當理解,可以沿著圖3的寫碼器系統的雜訊訊號路徑在分析濾波器組315和合成濾波器組385之間執行合成濾波器組345的類似省略。由線性濾波器330輸出的每個濾波的分量雜訊訊號可以被饋送到對應的分析濾波器組(例如,類似於分析濾波器組410、分析濾波器組420或分析濾波器組430),其可以輸出饋送到對應的增益放大器組(例如,類似於增益放大器415、增益放大器425或增益放大器435)的多個子帶訊號,其可以根據增益參數375放大多個子帶訊號並將放大的子帶訊號輸出到合成濾波器組385。
圖5是示出省略510增益級395H的合成濾波器組380的寫碼器系統的一部分的示例的方塊圖500。圖5的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。合成濾波器組380的省略510可以意味著響應於增益放大器360根據增益參數365對Q個分量訊號(s
h1[n]、s
h2[n]、…s
hQ[n])的放大而由增益放大器360輸出的Q個放大的分量訊號直接到達加法器260。
在一些情況下,濾波器組可能過採樣或臨界採樣。在沒有任何下採樣的過採樣濾波器組的情況下,分析濾波器組或合成濾波器組在數學上可以是不重要的(例如,包含單位脈衝濾波器),因此可以用作直通和/或可以在寫碼器系統的一些實施方式中省略,如在合成濾波器組380的省略510中。
雖然圖5的寫碼器系統示出了從諧波訊號路徑的增益級395H中省略510合成濾波器組380,但是可以類似地從圖3的寫碼器中省略其他濾波器組。例如,可以從圖3的寫碼器系統中省略一個或多個濾波器組,包括分析濾波器組310、分析濾波器組315、合成濾波器組340、合成濾波器組345、分析濾波器組350、分析濾波器組355、合成濾波器組380和/或合成濾波器組385。
省略分析濾波器組(例如,分析濾波器組310、分析濾波器組315、分析濾波器組350或分析濾波器組355)可以等同於具有與輸入訊號的頻帶匹配、大於其或與其類似的單個頻帶的分析濾波器組。省略分析濾波器組意味著無論使用線性濾波器(例如,線性濾波器320、線性濾波器330)還是增益放大器(例如,增益放大器360、增益放大器370),都以相同的方式處理所有頻帶。在一些示例中,只要保留至少一個分析濾波器組,就可以從圖3的寫碼器系統中移除多達三個分析濾波器。
圖6是示出寫碼器系統的示例的方塊圖600,其中增益級395H在用於處理諧波激發訊號215的濾波器級390H之前,並且其中增益級395N在用於處理雜訊激發訊號225的濾波器級390N之前。圖6的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。圖3的寫碼器系統的各種組件可以互換,這意味著當以不同的順序和/或換位執行某些操作時,結果可以在數學上相同。這沿著兩個濾波器路徑延伸到整個級。例如,沿著諧波訊號路徑,濾波器級390H和增益級395H可以如圖6中所示地轉換,其中增益級395H在濾波器級390H之前(與圖3中所示的順序相反)。相似地,沿著雜訊訊號路徑,濾波器級390N和增益級395N可以如圖6中所示地交換,其中增益級395N在濾波器級390N之前(與圖3中所示的順序相反)。
在一些示例中,寫碼器系統可以包括圖3和圖6的順序的混合。例如,寫碼器系統可以沿著諧波訊號路徑在其增益級395H之前具有其濾波器級390H,但是沿著其雜訊訊號路徑在濾波器級390N之前具有其增益級395N。相似地,寫碼器系統可以沿著諧波訊號路徑在其濾波器級390H之前具有其增益級395H,但是沿著其雜訊訊號路徑在其增益級395N之前具有濾波器級390N。
圖7A是示出將用於濾波的全頻帶線性濾波器705和用於增益的全頻帶線性濾波器725應用於諧波激發訊號215的寫碼器系統的示例的方塊圖700A。圖7A的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。寫碼器系統的諧波訊號路徑在圖7A中示出。
在圖7A的寫碼器系統中,ML濾波器估計器305可以生成用於線性濾波器710的各個頻帶(例如,分析濾波器組310和/或線性濾波器320的J個頻帶)的濾波器參數720(例如,濾波器參數325)。圖7A的寫碼器系統可以使用合成濾波器組715將線性濾波器710與合併在其中的濾波器參數720組合成全頻帶線性濾波器705。圖7A的寫碼器系統可以通過將全頻帶線性濾波器705應用於諧波激發訊號215來執行濾波器級790H,從而生成濾波的諧波激發訊號s
h[n]。
在圖7A的寫碼器系統中,語音估計器307可以生成用於增益放大器730的各個頻帶(例如,分析濾波器組350和/或增益放大器360的Q個頻帶)的增益參數740(例如,增益參數365)。圖7A的寫碼器系統可以使用合成濾波器組735將增益放大器730與合併在其中的增益參數740組合成全頻帶線性濾波器725。圖7A的寫碼器系統可以通過將全頻帶線性濾波器725應用於濾波的諧波激發訊號s
h[n]來執行增益級795H,從而生成放大的諧波激發訊號s
h ’[n]。
圖7A的寫碼器系統還包括雜訊訊號路徑,其中雜訊生成器220生成雜訊激發訊號u[n]225並使用濾波器級790N和/或增益級795N修改雜訊激發訊號u[n]225。圖7A的濾波器級790N可以與圖3-圖6中任一個的濾波器級390N匹配,或者圖7A的濾波器級790N可以與圖7B的濾波器級790N匹配。圖7A的增益級795N可以與圖3-圖6中任一個的增益級395N匹配,或者圖7A的增益級795N可以與圖7B的增益級795N匹配。從(多個)特徵f[m]130到雜訊生成器220的虛線指示雜訊生成器220可以接收(多個)特徵f[m]130或不接收(多個)特徵f[m]130。雜訊生成器220可以基於(多個)特徵f[m]130或者不基於(多個)特徵f[m]130來生成雜訊激發訊號u[n]225。
圖7B是示出將用於濾波的全頻帶線性濾波器745和用於增益的全頻帶線性濾波器765應用於雜訊激發訊號225的寫碼器系統的示例的方塊圖700B。圖7B的寫碼器系統可以是解碼器系統140的至少一部分和/或解碼器145的至少一部分的示例。寫碼器系統的雜訊訊號路徑在圖7B中示出。從特徵f[m]130到雜訊生成器220的虛線指示雜訊生成器220可以接收特徵f[m]130或不接收特徵f[m]130。雜訊生成器220可以基於(多個)特徵f[m]130或者不基於(多個)特徵f[m]130來生成雜訊激發訊號u[n]225。
在圖7B的寫碼器系統中,ML濾波器估計器305可以生成用於線性濾波器750的各個頻帶(例如,分析濾波器組315和/或線性濾波器330的K個頻帶)的濾波器參數760(例如,濾波器參數335)。圖7B的寫碼器系統可以使用合成濾波器組755將線性濾波器750與合併在其中的濾波器參數760組合成全頻帶線性濾波器745。圖7B的寫碼器系統可以通過將全頻帶線性濾波器745應用於雜訊激發訊號225來執行濾波器級790N,從而生成濾波的雜訊激發訊號s
n[n]。
在圖7B的寫碼器系統中,語音估計器307可以生成用於增益放大器770的各個頻帶(例如,分析濾波器組355和/或增益放大器370的R個頻帶)的增益參數780(例如,增益參數375)。圖7B的寫碼器系統可以使用合成濾波器組775將增益放大器770與合併在其中的增益參數780組合成全頻帶線性濾波器765。圖7B的寫碼器系統可以通過將全頻帶線性濾波器765應用於濾波的雜訊激發訊號s
n[n]來執行增益級795H,以生成放大的雜訊激發訊號s
n ’[n]。
圖7B的寫碼器系統還包括諧波訊號路徑,其中諧波激發生成器210生成諧波激發訊號p[n]215,並使用濾波器級790H和/或增益級795H修改諧波激發訊號p[n]215。圖7B的濾波器級790H可以與圖3-圖6中任一個的濾波器級390H匹配,或者圖7B的濾波器級790H可以與圖7A的濾波器級790H匹配。圖7B的增益級795H可以與圖3-圖6中任一個的增益級395H匹配,或者圖7B的增益級795H可以與圖7A的增益級795H匹配。
在圖3的寫碼器系統和圖7A-圖7B的寫碼系統之間,在ML濾波器估計器305的濾波器估計中,或者在語音估計器307的語音估計中,不存在靈活性的損失。圖3的寫碼器系統和圖7A-圖7B的寫碼器產生相同或相似品質的輸出音訊訊號ŝ[n]150。圖3的輸出音訊訊號ŝ[n]150可以不同於圖7A-圖7B的輸出音訊資訊ŝ[n]150。圖3的輸出音訊訊號ŝ[n]150可以與圖7A-圖7B的輸出音訊資訊ŝ[n]150相同。
在一些示例中,寫碼器系統可以包括圖3和圖7A-圖7B的階段設置的混合。例如,寫碼器系統可以使用圖3的濾波器級390H和圖7A的增益級395H。相似地,寫碼器系統可以使用圖7A的濾波器級390H和圖3的增益級395H。寫碼器系統可以使用圖3的濾波器級390N和圖7B的增益級395N。相似地,寫碼器系統可以使用圖7B的濾波器級390N和圖3的增益級395N。
在一些示例中,寫碼器系統可以包括對圖3的寫碼器系統的修改的混合,如關於圖4、圖5、圖6、圖7A和/或圖7B所述。例如,寫碼器系統可以包括圖4中描述的(多個)濾波器組省略440、圖5中描述的(多個)濾波組省略510、圖6的增益級和濾波器級的重排、圖7A-圖7B的修改增益級和/或濾波器級、或它們的組合的混合。
圖8是示出神經網路(NN)800的示例的方塊圖,該神經網路可以由機器學習(ML)濾波器估計器(例如,ML濾波器估計器205、ML濾波器估計器305)使用以生成濾波器參數和/或由語音估計器307使用以生成增益參數。根據說明性示例,NN 800可以被ML濾波器估計器205用於基於特徵f[m]130生成濾波器參數235和/或濾波器參數245。根據另一說明性示例,NN 800可被ML濾波器估計器305用於基於特徵f[m]130生成濾波器參數325、濾波器參數335、濾波器參數720和/或濾波器參數760。根據另一說明性示例,NN 800可以被語音估計器307用於基於特徵f[m]130生成增益參數365、增益參數375、增益參數740和/或增益參數780。
神經網路800可以包括任何類型的深度網路,諸如捲積神經網路(CNN)、自動編碼器、深度信念網路(DBN)、遞歸神經網路(RNN)、生成對抗網路(GAN)和/或其他類型的神經網路。神經網路800可以是ML濾波器估計器205、ML濾波器估計器305、語音估計器307或它們的組合的至少一部分的示例。
神經網路800的輸入層810包括輸入資料。輸入層810的輸入資料可以包括表示對應於音訊訊號的(多個)特徵的資料。在一些示例中,輸入層810的輸入資料包括表示特徵f[m]130的資料。在一些示例中,輸入層810的輸入資料包括表示音訊訊號的資料,諸如音訊訊號s[n]105。在一些示例中,輸入層810的輸入資料包括表示媒體資料的資料,諸如媒體資料m[n]120。在一些示例中,輸入層810的輸入資料包括與音訊訊號(例如,音訊訊號s[n]105)、與媒體資料(例如,媒體資料m[n]120)和/或與特徵(例如,(多個)特徵f[m])相關聯的元資料。
神經網路800包括多個隱藏層812A、812B至812N。隱藏層812A、812B至812N包括“N”個隱藏層,其中“N”是大於或等於一的整數。可以使隱藏層的數量包括給定應用所需的那麼多個層。神經網路800還包括輸出層814,其提供由隱藏層812A、812B至812N執行的處理得到的輸出。在一些示例中,輸出層814可以提供參數來調整寫碼器系統的一個或多個音訊訊號處理組件的應用。在一些示例中,輸出層814為一個或多個線性濾波器提供一個或多個濾波器參數,諸如濾波器參數325、濾波器參數335、濾波器參數720和/或濾波器參數760。在一些示例中,輸出層814為一個或多個增益放大器提供一個或多個增益參數,諸如增益參數365、增益參數375、增益參數740和/或增益參數780。
神經網路800是互連濾波器的多層神經網路。可以訓練每個濾波器以學習表示輸入資料的特徵。與濾波器相關聯的資訊在不同層之間共享,並且每一層在處理資訊時保留資訊。在一些情況下,神經網路800可以包括前饋網路,在這種情況下不存在反饋連接,其中網路的輸出被反饋到其自身。在一些情況下,網路800可以包括遞歸神經網路,該遞歸神經網路可以具有允許在讀取輸入時跨節點攜帶資訊的回路。
在一些情況下,可以通過各個層之間的節點到節點互連在層之間交換資訊。在一些情況下,該網路可以包括捲積神經網路,該網路可能不會將一層中的每個節點鏈接到下一層的每個其他節點。在層之間交換資訊的網路中,輸入層810的節點可以啟動第一隱藏層812A中的節點集合。例如,如圖所示,輸入層810的每個輸入節點可以被連接到第一隱藏層812A的每個節點。隱藏層的節點可以通過將啟動函數(例如,濾波器)應用於每個輸入節點的資訊來變換該資訊。然後,從變換導出的資訊可以被傳遞到下一個隱藏層812B的節點,並且可以啟動下一隱藏層812B的節點,該節點可以執行它們自己指定的函數。示例函數包括捲積函數、降尺度、升尺度、資料變換和/或任何其他合適的函數。然後,隱藏層812B的輸出可以啟動下一隱藏層的節點,等等。最後隱藏層812N的輸出可以啟動輸出層814的一個或多個節點,其提供經處理的輸出圖像。在一些情況下,雖然神經網路800中的節點(例如,節點816)被示為具有多個輸出線,但是節點具有單個輸出,並且被示為從節點輸出的所有線表示相同的輸出值。
在一些情況下,每個節點或節點之間的互連可以具有權重,該權重是從神經網路800的訓練導出的參數集合。例如,節點之間的互連可以表示關於互連節點的一條資訊。互連可以具有可調整的數字權重,其可以被調整(例如,基於訓練資料集),從而允許神經網路800適應輸入並且能夠隨著處理越來越多的資料而學習。
神經網路800被預訓練以使用不同的隱藏層812A、812B至812N處理來自輸入層810中的資料的特徵,以便通過輸出層814提供輸出。
圖9是示出用於音訊寫碼的過程900的流程圖。過程900可以由寫碼器系統執行。在一些示例中,寫碼器系統可以包括例如圖1的寫碼器系統、編碼器系統110、編碼器115、話音合成系統125、解碼器系統140、解碼器145、圖2的寫碼器系統、圖3的寫碼器系統、圖4的寫碼體系、圖5的寫碼器系統、圖6的寫碼器系統、圖7A的寫碼器系統、圖7B的寫碼器系統、神經網路800、計算系統1000、處理器1010、本文討論的任何先前列出的系統的一個或多個組件、任何先前列出系統的一個或多個部分、或它們的組合。
在操作905處,寫碼器系統被配置為並且可以接收對應於音訊訊號的一個或多個特徵。一個或多個特徵的示例包括(多個)特徵f[m]130。一個或多個特徵相對應的音訊訊號的示例包括音訊訊號s[n]105、媒體資料m[n]120和/或與媒體資料m[n]120相對應和/或由話音合成系統125生成的音訊訊號。
在一些態樣中,接收一個或多個特徵包括從編碼器接收一個或多個特徵,該編碼器被配置為至少部分地通過對音訊訊號進行編碼來生成一個或多個特徵。在一些態樣中,接收一個或多個特徵包括從話音合成器接收一個或多個特徵,該話音合成器被配置為至少部分地基於文本輸入來生成一個或多個特徵,在這種情況下音訊訊號可以是朗讀文本輸入的語音的音訊表示。在一些情況下,當從文本輸入計算一個或多個特徵時(例如,當從話音合成器接收到一個或多個特徵時),寫碼器系統可能不接收或處理從文本生成的伴隨音訊訊號。例如,寫碼器系統可以使用(例如,可以唯一使用的)話音合成系統的與將文本映射到特徵的過程相對應的部分,在這種情況下當在文本被用作輸入的情況下計算一個或多個特徵時,沒有音訊訊號被用作輸入。在這種情況下,文本的音訊表示可以作為輸出音訊訊號150在最終輸出處生成。
在一些態樣中,一個或多個特徵包括一個或多個對數梅爾頻譜特徵。
在操作910處,寫碼器系統被配置為並且可以基於一個或多個特徵來生成激發訊號。激發訊號的示例包括諧波激發訊號p[n]215、雜訊激發訊號u[n]225、本文所述的另一激發訊號或它們的組合。可以使用解碼器系統140、解碼器145、諧波激發生成器210、雜訊生成器220或它們的組合基於一個或多個特徵來生成激發訊號。
在一些態樣中,激發訊號是對應於音訊訊號的諧波分量的諧波激發訊號。諧波激發訊號的示例包括諧波激發訊號p[n]215。在一些態樣中,激發訊號是對應於音訊訊號的雜訊分量的雜訊激發訊號。雜訊激發訊號的示例包括雜訊激發訊號u[n]225。
在操作915處,寫碼器系統被配置為並且可以使用濾波器組從激發訊號生成多個頻帶特定訊號。多個頻帶特定訊號對應於多個頻帶。濾波器組的示例包括分析濾波器組310、分析濾波器組315、分析濾波器組350、分析濾波器組355、分析濾波器組410、分析濾波器組420、分析濾波器組430、將圖7A的線性濾波器710分割(break)為多個頻帶(未示出)的分析濾波器組、將圖7A的增益放大器730分割為多個頻帶(未示出)的分析濾波器組、將圖7B的線性濾波器750分割為多個頻帶(未示出)的分析濾波器組、將圖7B的增益放大器770分割為多個頻帶(未示出)的分析濾波器組、本文所述的另一濾波器組或它們的組合。對應於多個頻帶的多個頻帶特定訊號的示例可以包括用於範圍從1到J的頻帶x1的頻帶特定訊號p
x1[n](例如,由分析濾波器組310產生)、用於範圍從1到K的頻帶x2的頻帶特定訊號u
x2[n](例如,由分析濾波器組315產生)、用於範圍從1到Q的頻帶x3的頻帶特定訊號s
hx3[n](例如,由分析濾波器組350產生)、用於範圍從1到R的頻帶x4的頻帶特定訊號s
nx4[n](例如,由分析濾波器組355產生)、由分析濾波器組410產生的頻帶特定訊號、由分析濾波器組420產生的頻帶特定訊號、由分析濾波器組430產生的頻帶特定訊號、與圖7A的線性濾波器710相關聯的頻帶特定訊號、與圖7A的增益放大器730相關聯的頻帶特定訊號、與圖7B的線性濾波器750相關聯的頻帶特定訊號、與圖7B的增益放大器770相關聯的頻帶特定訊號、本文所述的其它頻帶特定訊號或它們的組合。
在操作920處,寫碼器系統被配置為並且可以使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數。ML濾波器估計器的示例包括ML濾波器估計器205、ML濾波器估計器305、NN 800或它們的組合。一個或多個參數的示例包括濾波器參數235、濾波器參數245、濾波器參數325、濾波器參數335、濾波器參數720、濾波器參數760、本文所述的其他濾波器參數或它們的組合。一個或多個線性濾波器的示例包括線性濾波器230、線性濾波器240、線性濾波器230、線性濾波器320的至少一個、線性濾波器330的至少一個、線性濾波器710的至少一個、線性濾波器750的至少一個、全頻帶線性濾波器705、全頻帶線性濾波器725、全頻帶線性濾波器745、全頻帶線性濾波器765、本文所述的另一線性濾波器或它們的組合。
在一些態樣中,ML濾波器估計器包括一個或多個訓練的ML模型。在一些態樣中,ML濾波器估計器包括一個或多個訓練的神經網路,諸如NN 800。
在一些態樣中,一個或多個線性濾波器包括一個或多個時變線性濾波器。在一些態樣中,一個或多個線性濾波器包括一個或多個時不變線性濾波器。
在一些態樣中,與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的脈衝響應。在一些態樣中,與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的頻率響應。在一些態樣中,與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的有理傳遞函數係數。
在操作925處,寫碼器系統被配置為並且可以使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值。語音估計器的示例包括語音估計器307、NN 800或它們的組合。一個或多個增益值的示例包括增益參數365、增益參數375、增益參數740、增益參數780、本文所述的其他增益值或它們的組合。一個或多個增益放大器的示例包括增益放大器360的至少一個、增益放大器370的至少一個、增益放大器415的至少一個、增益放大器425的至少一個、增益放大器435的至少一個、增益放大器730的至少一個、增益放大器770的至少一個、全頻帶線性濾波器725、全頻帶線性濾波器765、本文所述的另一增益放大器或它們的組合。
在一些態樣中,語音估計器包括一個或多個訓練的ML模型。在一些態樣中,語音估計器包括一個或多個訓練的神經網路,諸如NN 800。
在操作930處,寫碼器系統被配置為並且可以基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。輸出音訊訊號的示例包括輸出音訊訊號ŝ[n]150。
在一些態樣中,音訊訊號是話音訊號。在一些示例中,輸出音訊訊號是作為話音訊號的重構變體的重構話音訊號。
在一些態樣中,生成輸出音訊訊號包括使用合成濾波器組來組合多個頻帶特定訊號。合成濾波器組的示例包括合成濾波器組加法器260、合成濾波器組340、合成濾波器組345、合成濾波器組380、合成濾波器組385、合成濾波器組715、合成濾波器組735、合成濾波器組755、合成濾波器組775、本文所述的另一合成濾波器組或它們的組合。在一些態樣中,生成輸出音訊訊號包括通過根據一個或多個參數將一個或多個線性濾波器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。這個的示例包括根據濾波器參數325應用線性濾波器320、根據濾波器參數335應用線性濾波器330、根據濾波器參數720應用線性濾波器710和/或全頻帶線性濾波器705、根據濾波器參數760應用線性濾波器750和/或全頻帶線性濾波器745或它們的組合。
在一些態樣中,為了生成輸出音訊訊號,寫碼器系統將多個頻帶特定訊號組合成濾波的訊號(例如,使用合成濾波器組)。濾波的訊號的示例包括諧波濾波的訊號s
h[n]250、雜訊濾波的訊號s
n[n]255、圖3-圖7B中任一個的諧波濾波的訊號s
h[n]、圖3-圖7B中任一個的濾波的雜訊訊號s
n[n]或它們的組合。寫碼器系統使用第二濾波器組(例如,分析濾波器組350、分析濾波器組355)從濾波的訊號生成第二多個頻帶特定訊號(例如,s
h1[n]至s
hQ[n]和/或s
n1[n]至s
nR[n])。第二多個頻帶特定訊號對應於第二多個頻帶。寫碼器系統通過根據一個或多個增益值將一個或多個增益放大器(例如,增益放大器360、增益放大器370、增益放大器730、全頻帶線性濾波器725、增益放大器770、全頻帶線性濾波器765)中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多頻帶特定訊號。寫碼器系統組合第二多個頻帶特定訊號(例如,經由合成濾波器組380、合成濾波器組385和/或加法器260)。在一些態樣中,生成輸出音訊訊號包括將多個頻帶特定訊號組合成濾波的訊號,並通過根據一個或多個增益值將一個或多個增益放大器應用於濾波的訊號來修改濾波的訊號。
在一些態樣中,生成輸出音訊訊號包括通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。這個的示例包括根據增益參數365應用增益放大器360、根據增益參數375應用增益放大器370、根據增益係數740應用增益放大器730和/或全頻帶線性濾波器725、根據增益參數780應用增益放大器770和/或全頻帶線性濾波器765或它們的組合。
在一些態樣中,為了生成輸出音訊訊號,寫碼器系統將多個頻帶特定訊號組合成放大的訊號(例如,由圖6的增益級395H和/或圖6的增益級395N生成)。寫碼器系統使用第二濾波器組(例如,圖6的濾波器級390H和/或圖6的濾波器級390N)從放大的訊號生成第二多個頻帶特定訊號。第二多個頻帶特定訊號對應於第二多個頻帶。寫碼器系統通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號。寫碼器系統組合第二多個頻帶特定訊號。在一些態樣中,生成輸出音訊訊號包括將多個頻帶特定訊號組合成放大的訊號,並通過根據一個或多個增益值將一個或多個增益放大器應用於放大的訊號來修改放大的訊號。
在一些態樣中,寫碼器系統使用附加的線性濾波器修改輸出音訊訊號。附加的線性濾波器的示例包括線性濾波器230。在一些態樣中,附加的線性濾波器是時變的。在一些態樣中,附加的線性濾波器是時不變的。在一些態樣中,附加線性濾波器是線性預測寫碼(LPC)濾波器。
在一些態樣中,寫碼器系統在使用濾波器組從激發訊號生成多個頻帶特定訊號之前,使用附加的線性濾波器來修改激發訊號。在線性濾波器230被移動到訊號路徑之一在加法器260之前並且在以下至少一個之前的情況下:分析濾波器組310、分析濾波器組315、分析濾波器組350、分析濾波器組355、分析濾波器組410、分析濾波器組420、分析濾波器組430、本文所述的另一濾波器組或它們的組合,附加的線性濾波器的示例包括線性濾波器230。在一些態樣中,附加的線性濾波器是時變的。在一些態樣中,附加的線性濾波器是時不變的。在一些態樣中,附加的線性濾波器是線性預測寫碼(LPC)濾波器。
在一些示例中,本文所述的過程(例如,圖1、圖2、圖3、圖4、圖5、圖6、圖7A、圖7B、圖8、圖9、圖10的過程、本文所述的其他過程和/或它們的組合)可以由計算設備或裝置執行。在一些示例中,可以由解碼器系統140執行本文所述和上面所列的過程。在另一示例中,本文所述的過程可以由具有圖10中所示的計算系統1000的計算設備執行。
計算設備可以包括任何合適設備,諸如行動設備(例如,行動電話)、桌上型計算設備、平板計算設備、可穿戴設備(例如,VR頭戴、AR頭戴、AR眼鏡、網路連接手錶或智慧手錶或其他可穿戴設備)、伺服器電腦、自主車輛或自主車輛的計算設備、機器人設備、電視和/或具有資源能力以執行本文所述過程(包括本文所述和上面所列的過程)的任何其他計算設備。在一些情況下,計算設備或裝置可以包括各種組件,諸如一個或多個輸入設備、一個或多個輸出設備、一個或多個處理器、一個或多個微處理器、一個或多個微電腦、一個或多個相機、一個或多個感測器和/或(多個)其他組件,它們被配置為執行本文所述的操作或流程步驟。在一些示例中,計算設備可以包括顯示器、被配置為通訊和/或接收資料的網路介面、它們的任何組合和/或(多個)其他組件。網路介面可以被配置為通訊和/或接收基於網際網路協定(Internet Protocol, IP)的資料或其他類型的資料。
計算設備的組件可以在電路中實施。例如,組件可以包括和/或可以使用電子電路或其他電子硬體來實現,其中可以包括一個或多個可程式化的電子電路(例如,微處理器、圖形處理單元(graphics processing units, GPU)、數位訊號處理器(digital signal processors, DSP)、中央處理單元(central processing units, CPU)和/或其他合適的電子電路),和/或可以包括和/或使用電腦軟體、韌體或它們的任何組合實施來執行本文所述各種操作。
本文所述的和上面列出的過程被示為邏輯流程圖、方塊圖和/或概念圖,其操作表示可以在硬體、電腦指令或它們的組合中實施的一系列操作。在電腦指令的上下文中,這些操作代表儲存在一個或多個電腦可讀儲存媒體上的電腦可執行指令,當由一個或多個處理器執行它們時執行所述的操作。通常,電腦可執行指令包括執行特定功能或實施特定資料類型的例程、程式、對象、物件、資料結構和類似。描述操作的順序不意圖被解釋為限制,並且任何數量的描述的操作可以以任何順序和/或並行地組合以實施過程。
此外,本文所述和上面所列的過程可以在被配置有可執行指令的一個或多個電腦系統的控制下執行,並且可以作為在一個或多個處理器上共同執行的代碼(例如,可執行指令、一個或多個電腦程式或一個或多個應用程式)由硬體或它們的組合來實施。如上所述,代碼可以儲存在電腦可讀或機器可讀的儲存媒體上,例如,以電腦程式的形式儲存,其包括可由一個或多個處理器執行的多條指令。電腦可讀或機器可讀儲存媒體可以是非暫時的。
圖10是示出了實施本技術某些態樣的系統的示例的圖。具體地,圖10示出了計算系統1000的示例,其可以是例如構成內部計算系統、遠程計算系統、相機的任何計算設備或其中系統的組件使用連接1005彼此通訊的任何組件。連接1005可以是使用匯流排的實體連接,或直接連接到處理器1010,諸如在晶片組架構中。連接1005也可以是虛擬連接、網路連接或邏輯連接。
在一些實施例中,計算系統1000是分布式系統,其中本揭露中描述的功能可以分佈在一個資料中心、多個資料中心、對等網路等內。在一些實施例中,一個或多個所描述的系統組件代表許多此類組件,每個都執行對於該組件描述的部分或全部的功能。在一些實施例中,組件可以是實體或虛擬設備。
示例系統1000包括至少一個處理單元(CPU或處理器)1010和連接1005,其將包括系統記憶體1015(諸如唯讀記憶體(read-only memory, ROM)1020和隨機存取記憶體(random access memory, RAM)1025)的各種系統組件耦接到處理器1010。計算系統1000可以包括與處理器1010直接連接、接近或整合為處理器一部分的高速記憶體的快取1012。
處理器1010可以包括任何通用處理器和硬體服務或軟體服務(諸如儲存在儲存設備1030中的服務1032、1034和1036)(被配置為控制處理器1010),以及軟體指令被合併到實際處理器設計中的專用處理器。處理器1010本質上可以是一個完全獨立的計算系統,包含多個內核或處理器、匯流排、記憶體控制器、快取等。多核處理器可以是對稱的或不對稱的。
為了實現用戶互動,計算系統1000包括輸入設備1045,其可以表示任意數量的輸入機構,諸如用於話音的麥克風、用於手勢或圖形輸入的觸控螢幕、鍵盤、滑鼠、運動輸入、語音等。計算系統1000還可以包括輸出設備1035,其可以是若干輸出機構中的一個或多個。在一些情況下,多模式系統可以使用戶能夠提供多種類型的輸入/輸出來與計算系統1000進行通訊。計算系統1000可以包括通訊介面1040,其一般可以支配和管理用戶輸入和系統輸出。通訊介面可以使用有線和/或無線收發器執行或促進接收和/或發送有線或無線通訊,包括利用以下的通訊:音訊插孔/插頭、麥克風插孔/插頭、通用序列匯流排(universal serial bus, USB)埠/插頭、Apple®Lightning®埠/插頭、乙太網埠/插頭、光纖埠/插頭、專有有線埠/插頭、藍牙®無線訊號傳輸、藍牙®低功率(BLUETOOTH® low energy, BLE)無線訊號傳輸、IBEACON®無線訊號傳輸、射頻識別(radio-frequency identification, RFID)無線訊號傳輸、近場通訊(near-field communications, NFC)無線訊號傳輸、專用短程通訊(dedicated short range communication, DSRC)無線訊號傳輸、802.11 Wi-Fi無線訊號傳輸、無線區域網(wireless local area network, WLAN)訊號傳輸、可見光通訊(Visible Light Communication, VLC)、全球微波存取互操作性(Worldwide Interoperability for Microwave Access, WiMAX)、紅外(Infrared, IR)通訊無線訊號傳輸、公眾交換電話網(Public Switched Telephone Network, PSTN)訊號傳輸、整合服務數位網路(Integrated Services Digital Network, ISDN)訊號傳輸、3G/4G/5G/LTE蜂巢式資料網路無線訊號傳輸、ad-hoc網路訊號傳輸、無線電波訊號傳輸、微波訊號傳輸、紅外訊號傳輸、可見光訊號傳輸、紫外光訊號傳輸、沿電磁頻譜的無線訊號傳輸,或它們的組合。通訊介面1040還可以包括一個或多個全球導航衛星系統(Global Navigation Satellite System, GNSS)接收器或收發器,它們用於基於從與一個或多個GNSS系統相關聯的一個或多個衛星接收到的一個或多個訊號來確定計算系統1000的位置。GNSS系統包括但不限於基於美國的全球定位系統(Global Positioning System, GPS)、基於俄羅斯的全球導航衛星系統(Global Navigation Satellite System, GLONASS)、基於中國的北斗導航衛星系統(BeiDou Navigation Satellite System, BDS)和基於歐洲的伽利略GNSS。對任何特定硬體佈置的操作沒有限制,並因此在開發過程中,本文的基本特徵可以很容易地替代改進的硬體或韌體佈置。
儲存設備1030可以是非揮發性和/或非暫時性和/或電腦可讀儲存設備,並且可以是硬碟或其他類型的電腦可讀媒體,其可以儲存電腦可存取的資料,諸如磁帶盒(cassette)、快閃記憶卡、固態儲存設備、數位多功能磁碟、盒式磁帶(cartridge)、軟碟、軟磁碟、硬碟、磁帶、磁條(strip/stripe)、任何其他磁性儲存媒體、快閃記憶體、憶阻器記憶體、任何其他固態記憶體、壓縮碟唯讀記憶體(compact disc read only memory, CD-ROM)光碟、可重寫壓縮碟(compact disc, CD)光碟、數位視訊碟(digital video disk, DVD)光碟、藍光碟(blu-ray disc, BDD)光碟、全息光碟、其他光學媒體、安全數位(secure digital, SD)卡,微型安全數位(micro secure digital, microSD)卡、記憶棒(Memory Stick®)卡、智慧卡晶片、EMV晶片、訂戶識別模組(subscriber identity module, SIM)卡、mini/micro/nano/pico SIM卡、另一種積體電路(integrated circuit, IC)晶片/卡、隨機存取記憶體(RAM)、靜態RAM(static RAM, SRAM)、動態RAM(dynamic RAM, DRAM)、唯讀記憶體(ROM)、可程式化唯讀記憶體(programmable read-only memory, PROM)、可抹除可程式化唯讀記憶體(erasable programmable read-only memory, EPROM)、電可抹除可程式化唯讀記憶體(electrically erasable programmable read-only memory, EEPROM)、快閃EPROM(FLASHPROM)、快取記憶體(L1/L2/L3/L4/L5/L#)、電阻式隨機存取記憶體(resistive random-access memory, RRAM/ReRAM)、相變記憶體(phase change memory, PCM)、自旋傳遞轉矩RAM(spin transfer torque RAM, STT-RAM)、另一種儲存晶片或盒,和/或它們的組合。
儲存設備1030可以包括軟體服務、伺服器、服務等,當定義這種軟體的代碼由處理器1010執行時,其使系統執行一種功能。在一些實施例中,執行特定功能的硬體服務可以包括儲存在電腦可讀媒體中的軟體組件,其與執行該功能所需的硬體組件(諸如處理器1010、連接1005、輸出設備1035等)連接。
如本文所用的,術語“電腦可讀媒體”包括但不限於便攜式或非便攜式儲存設備、光學儲存設備,以及能夠儲存、包含或攜帶指令(多個)和/或資料的各種其他媒體。電腦可讀媒體可包括其中可儲存資料並且不包括無線或通過有線連接傳播的載波和/或暫時性電子訊號的非暫時性媒體。非暫時性媒體的示例可以包括,但不限於磁碟或磁帶、光學儲存媒體(諸如壓縮碟(CD)或數位多功能碟(digital versatile disk, DVD))、快閃記憶體、記憶體或儲存設備。電腦可讀媒體可在其上儲存代碼和/或機器可執行指令,它們可表示過程、函數、子程式、程式、例程、子例程、模組、軟體包、類或指令、資料結構或程式語句的任何組合。代碼段可以通過傳遞和/或接收資訊、資料、自變量、參數或記憶體內容與另一個代碼段或硬體電路耦接。資訊、自變量、參數、資料等可以使用任何合適的方式傳遞、轉發或發送,包括記憶體共享、消息傳遞、令牌傳遞、網路傳輸或類似。
在一些實施例中,電腦可讀儲存設備、媒體和記憶體可以包括包含位元串流和類似的電纜或無線訊號。然而,當提及時,非暫時性電腦可讀儲存媒體明確地排除了諸如能量、載波訊號、電磁波和訊號本身的媒體。
具體細節在上述描述中提供,以提供對本文提供的實施例和示例的全面理解。然而,所屬技術領域具有通常知識者將理解,可以在沒有這些具體細節的情況下實踐實施例。為了解釋清楚,在一些情況下,本技術可以被表示為包括單獨功能方塊,其包括了包含設備、設備組件、軟體實現的方法中的步驟或例程,或硬體和軟體的組合的功能方塊。除了圖中所示和/或本文描述的那些組件外,還可以使用附加組件。例如,電路、系統、網路、過程和其他組件可以以方塊圖的形式顯示為組件,使得不會被不必要的細節模糊了實施例。在其他情況下,眾所周知的電路、過程、演算法、結構和技術可以不作不必要的詳細示出,以避免模糊實施例。
單獨實施例可在上面描述為過程或方法,其被描繪成流圖、流程圖、資料流圖、結構圖或方塊圖。儘管流程圖可能將操作描述為順序過程,但許多操作可以平行或併發地進行。此外,操作的順序也可以重新佈置。過程在其操作完成後被終止,但可能有未包括在圖中的附加步驟。過程可以對應於方法、函數、過程、子例程、子程式等。當進程對應於一個函數時,它的終止可以對應於該函數向調用函數或主函數的返回。
根據上述示例的過程和方法可以使用電腦可執行指令來實現,這些指令儲存在電腦可讀媒體中或以其他方式可用。例如,此類指令可以包括致使或以其他方式配置通用電腦、專用電腦或處理設備以執行特定功能或一組功能的指令和資料。使用的部分電腦資源可以通過網路存取。電腦可執行指令可以是,例如二進制文件、中間格式指令,諸如匯編語言、韌體、源代碼等。可用於儲存指令、使用的資訊和/或在根據所述示例的方法期間創建的資訊的電腦可讀媒體的示例包括磁性或光學碟盤、快閃記憶體、提供有非揮發性記憶體的USB設備、網路儲存設備等等。
實現根據這些揭露的過程和方法的設備可以包括硬體、軟體、韌體、中間件、微代碼、硬體描述語言或它們的任何組合,並且可以採用各種形式因素中的任何一種。當以軟體、韌體、中間件或微代碼實施時,執行必要任務的程式代碼或代碼段(例如,電腦程式產品)可以被儲存在電腦可讀或機器可讀媒體中。(多個)處理器可以執行必要的任務。形式因素的典型示例包括筆記本、智慧手機、行動電話、平板設備或其他小形式因素的個人電腦、個人數位助理、機架式設備、獨立設備等等。本文所述的功能也可以體現在周邊設備或插入卡中。通過進一步的示例,這種功能也可以在電路板上的不同晶片或在單一設備中執行的不同過程中實施。
指令、用於傳達此類指令的媒體、用於執行它們的計算資源以及用於支持此類計算資源的其他結構是提供本公開所述功能的示例方式。
在上述描述中,本揭露的各態樣是參考其具體實施例描述的,但所屬技術領域具有通常知識者將認識到本揭露並不限於此。因此,雖然本揭露的示例性實施例已在本文中詳細描述,但應當理解,發明性概念可以以其他方式多樣地實現和應用,並且所附請求項旨在被解釋為包括此類變型,除非受到現有技術的限制。上述揭露的各種特徵和態樣可以單獨或聯合使用。此外,在不背離本說明書更廣泛的精神和範圍的情況下,可以在本文所述之外的任何環境和應用中利用實施例。因此,本說明書和圖式應被視為說明性而非限制性的。為了說明的目的,這些方法是按特定順序描述的。應當理解,在替代實施例中,這些方法可以按照與所述不同的順序執行。
所屬技術領域具有通常知識者中的一個將理解,在不脫離本描述範圍的情況下,本文使用的小於(“<”)和大於(“>”)符號或術語可以分別用小於或等於(“≤”)和大於或等於(“≥”)符號代替。
在組件被描述為被“被配置為”執行某些操作的情況下,則可以例如通過設計電子電路或其他硬體來執行該操作、通過程式化可程式化電子電路(例如,微處理器或其他合適的電子電路)來執行該操作,或它們的任何組合來完成這種配置。
短語“耦接到”指直接或間接實體連接到另一個組件的任何組件,和/或直接或間接與另一個組件通訊的任何組件(例如,通過有線或無線連接連接到另一個組件,和/或其他合適的通訊介面)。
請求項語言或其他語言提及一組的“至少一個”和/或一組的“一個或多個”指示該組的一個成員或該組的多個成員(以任何組合)滿足該請求項。例如,請求項語言提及“A和B中的至少一個”意味著A、B或A和B。在另一個示例中,請求項語言提及“A、B和C中的至少一個”意味著A、B、C,或A和B,或A和C,或B和C,或A和B和C。語言一組的“至少一個”和/或一組的“一個或多個”並沒有將該組限制在該組所列的項目中。例如,請求項語言提及“A和B中的至少一個”可以意味著A、B或A和B,並且可以額外包括A和B的組中沒有列出的項目。
結合本文揭露的實施例描述的各種說明性的邏輯方塊、模組、電路和算法步驟可以被實施為電子硬體、電腦軟體、韌體或它們的組合。為了清楚地說明硬體和軟體的這種可互換性,上面已經大體上根據它們的功能描述了各種說明性的組件、方塊、模組、電路和步驟。將這些功能實施為硬體還是軟體取決於特定的應用和施加在整個系統上的設計約束。技術人員可以針對每個特定應用以各種方式來實施所描述的功能,但是這種實施決定不應被解釋為導致脫離本公開的範圍。
本文所述的技術也可以在電子硬體、電腦軟體、韌體或它們的任何組合中實現。此類技術可以在各種設備中的任何一種中實施,諸如通用電腦、無線通訊設備手持或具有多種用途的積體電路設備,包括應用於無線通訊設備手持和其他設備中。任何被描述為模組或組件的特徵都可以在整合的邏輯設備中一起實施,或者作為離散但可互操作的邏輯設備分別實施。如果以軟體實施,則這些技術可以至少部分地通過電腦可讀資料儲存媒體實施,其包括程式代碼,其中包括在當被執行時執行上述的一個或多個方法、算法和/或操作的指令。該電腦可讀資料儲存媒體可構成電腦程式產品的一部分,其可包括包裝材料。電腦可讀媒體可以包括記憶體或資料儲存媒體,諸如隨機存取記憶體(RAM)(諸如同步動態隨機存取記憶體(synchronous dynamic random access memory, SDRAM))、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(non-volatile random access memory, NVRAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體和類似。附加地或替代地,這些技術可以至少部分通過電腦可讀通訊媒體來實施,其以指令或資料結構的形式承載或通訊程式代碼,並且其可以由電腦存取、讀取和/或執行,諸如傳播的訊號或波。
程式代碼可由處理器執行,其可包括一個或多個處理器,諸如一個或多個數位訊號處理器(DSP)、通用微處理器、特殊應用積體電路(application specific integrated circuits, ASIC)、現場可程式化邏輯陣列(field programmable logic arrays, FPGA),或其他等同的整合或離散邏輯電路。這樣的處理器可以被配置為執行本揭露中描述的任何技術。通用處理器可以是微處理器;但是替代地,處理器可以是任何常規處理器、控制器、微控制器或狀態機。處理器還可以實施為計算設備的組合,例如DSP和微處理器的組合、多個微處理器、一個或多個微處理器與DSP核結合,或任何其他這樣的配置。因此,如本文所用的術語“處理器”可指上述任何結構、上述結構的任何組合,或適合實施本文所述技術的任何其他結構或裝置。此外,在一些態樣中,本文所述的功能可在配置為編碼和解碼的專用軟體模組或硬體模組內提供,或併入組合的視訊編碼器-解碼器(encoder-decoder, CODEC)。
本揭露的說明性態樣包括:
態樣1.一種用於處理圖像資料的裝置,該裝置包括:記憶體;以及耦接到該記憶體的一個或多個處理器,該一個或多個處理器被配置為:接收與音訊訊號相對應的一個或多個特徵;基於一個或多個特徵生成激發訊號;使用濾波器組從激發訊號生成多個頻帶特定訊號,其中多個頻帶特定訊號對應於多個頻帶;使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數;使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;並且基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。
態樣2.根據態樣1的裝置,其中音訊訊號是話音訊號,並且其中輸出音訊訊號是作為話音訊號的重構變體的重構話音訊號。
態樣3.根據態樣1或2中任一項的裝置,其中為了接收一個或多個特徵,該一個或多個處理器被配置為接收從編碼器接收一個或多個特徵,該編碼器至少部分地通過對音訊訊號進行編碼來生成一個或多個特徵。
態樣4.根據態樣1至3中任一項的裝置,其中為了接收一個或多個特徵,該一個或多個處理器被配置為從話音合成器接收一個或多個特徵,該話音合成器至少部分地基於文本輸入生成一個或多個特徵,其中音訊訊號是朗讀文本輸入的語音的音訊表示。
態樣5.根據態樣1至4中任一項的裝置,其中激發訊號是對應於音訊訊號的諧波分量的諧波激發訊號。
態樣6.根據態樣1至5中任一項的裝置,其中激發訊號是對應於音訊訊號的雜訊分量的雜訊激發訊號。
態樣7.根據態樣1至6中任一項的裝置,其中ML濾波器估計器包括一個或多個訓練的ML模型。
態樣8.根據態樣1至7中任一項的裝置,其中ML濾波器估計器包括一個或多個訓練的神經網路。
態樣9.根據態樣1至8中任一項的裝置,其中語音估計器包括一個或多個訓練的ML模型。
態樣10.根據態樣1至9中任一項的裝置,其中語音估計器包括一個或多個訓練的神經網路。
態樣11.根據態樣1至10中任一項的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為使用合成濾波器組來組合多個頻帶特定訊號。
態樣12.根據態樣1至11中任一項的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為通過根據一個或多個參數將一個或多個線性濾波器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。
態樣13.根據態樣12的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為:將多個頻帶特定訊號組合成濾波的訊號;使用第二濾波器組從濾波的訊號生成第二多個頻帶特定訊號,其中第二多個頻帶特定訊號對應於第二多個頻帶;通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號;以及組合第二多個頻帶特定訊號。
態樣14.根據態樣12或13中任一項的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為:將多個頻帶特定訊號組合成濾波的訊號;以及通過根據一個或多個增益值將一個或多個增益放大器應用於濾波的訊號來修改濾波的訊號。
態樣15.根據態樣1至14中任一項的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為:通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。
態樣16.根據態樣15的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為:將多個頻帶特定訊號組合成放大的訊號;使用第二濾波器組從放大的訊號生成第二多個頻帶特定訊號,其中第二多個頻帶特定訊號對應於第二多個頻帶;通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號;以及組合第二多個頻帶特定訊號。
態樣17.根據態樣15或16中任一項的裝置,其中為了生成輸出音訊訊號,該一個或多個處理器被配置為:將多個頻帶特定訊號組合成放大的訊號;以及通過根據一個或多個增益值將一個或多個增益放大器應用於放大的訊號來修改放大的訊號。
態樣18.根據態樣1至17中任一項的裝置,其中一個或多個線性濾波器包括一個或多個時變線性濾波器。
態樣19.根據態樣1至18中任一項的裝置,其中一個或多個線性濾波器包括一個或多個時不變線性濾波器。
態樣20.根據態樣1至19中任一項的裝置,其中該一個或多個處理器被配置為:使用附加的線性濾波器修改輸出音訊訊號。
態樣21.根據態樣20的裝置,其中附加的線性濾波器是時變的。
態樣22.根據態樣20或21中任一項的裝置,其中附加的線性濾波器是時不變的。
態樣23.根據態樣20至22中任一項的裝置,其中附加的線性濾波器是線性預測寫碼(LPC)濾波器。
態樣24.根據態樣1至23中任一項的裝置,其中該一個或多個處理器被配置為:在使用濾波器組從激發訊號生成多個頻帶特定訊號之前,使用附加的線性濾波器來修改激發訊號。
態樣25.根據態樣24的裝置,其中附加的線性濾波器是時變的。
態樣26.根據態樣24或25中任一項的裝置,其中附加的線性濾波器是時不變的。
態樣27.根據態樣24至26中任一項的裝置,其中附加的線性濾波器是線性預測寫碼(LPC)濾波器。
態樣28.根據態樣1至27中任一項的裝置,其中一個或多個特徵包括一個或多個對數梅爾頻譜特徵。
態樣29.根據態樣1至28中任一項的裝置,其中與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的脈衝響應。
態樣30.根據態樣1至29中任一項的裝置,其中與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的頻率響應。
態樣31.根據態樣1至30中任一項的裝置,其中與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的有理傳遞函數係數。
態樣32.一種用於音訊寫碼的方法,該方法包括:接收與音訊訊號相對應的一個或多個特徵;基於一個或多個特徵生成激發訊號;使用濾波器組從激發訊號生成多個頻帶特定訊號,其中多個頻帶特定訊號對應於多個頻帶;使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數;使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。
態樣33.根據態樣32的方法,其中音訊訊號是話音訊號,並且其中輸出音訊訊號是作為話音訊號的重構變體的重構話音訊號。
態樣34.根據態樣32或33中任一項的方法,其中接收一個或多個特徵包括從編碼器接收一個或多個特徵,該編碼器至少部分地通過對音訊訊號進行編碼來生成一個或多個特徵。
態樣35.根據態樣32至34中任一項的方法,其中接收一個或多個特徵包括從話音合成器接收一個或多個特徵,該話音合成器至少部分地基於文本輸入生成一個或多個特徵,其中音訊訊號是朗讀文本輸入的語音的音訊表示。
態樣36.根據態樣32至35中任一項的方法,其中激發訊號是對應於音訊訊號的諧波分量的諧波激發訊號。
態樣37.根據態樣32至36中任一項的方法,其中激發訊號是對應於音訊訊號的雜訊分量的雜訊激發訊號。
態樣38.根據態樣32至37中任一項的方法,其中ML濾波器估計器包括一個或多個訓練的ML模型。
態樣39.根據態樣32至38中任一項的方法,其中ML濾波器估計器包括一個或多個訓練的神經網路。
態樣40.根據態樣32至39中任一項的方法,其中語音估計器包括一個或多個訓練的ML模型。
態樣41.根據態樣32至40中任一項的方法,其中語音估計器包括一個或多個訓練的神經網路。
態樣42.根據態樣32至41中任一項的方法,其中生成輸出音訊訊號包括使用合成濾波器組來組合多個頻帶特定訊號。
態樣43.根據態樣32至42中任一項的方法,其中生成輸出音訊訊號包括通過根據一個或多個參數將一個或多個線性濾波器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。
態樣44.根據態樣43的方法,其中生成輸出音訊訊號包括:將多個頻帶特定訊號組合成濾波的訊號;使用第二濾波器組從濾波的訊號生成第二多個頻帶特定訊號,其中第二多個頻帶特定訊號對應於第二多個頻帶;通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號;以及組合第二多個頻帶特定訊號。
態樣45.根據態樣43或44中任一項的方法,其中生成輸出音訊訊號包括:將多個頻帶特定訊號組合成濾波的訊號;以及通過根據一個或多個增益值將一個或多個增益放大器應用於濾波的訊號來修改濾波的訊號。
態樣46.根據態樣32至45中任一項的方法,其中生成輸出音訊訊號包括通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於多個頻帶特定訊號中的每一個來修改多個頻帶特定訊號。
態樣47.根據態樣46的方法,其中生成輸出音訊訊號包括:將多個頻帶特定訊號組合成放大的訊號;使用第二濾波器組從放大的訊號生成第二多個頻帶特定訊號,其中第二多個頻帶特定訊號對應於第二多個頻帶;通過根據一個或多個增益值將一個或多個增益放大器中的至少一個應用於第二多個頻帶特定訊號中的每一個來修改第二多個頻帶特定訊號;以及組合第二多個頻帶特定訊號。
態樣48.根據態樣46或47中任一項的方法,其中生成輸出音訊訊號包括:將多個頻帶特定訊號組合成放大的訊號;以及通過根據一個或多個增益值將一個或多個增益放大器應用於放大的訊號來修改放大的訊號。
態樣49.根據態樣32至48中任一項的方法,其中一個或多個線性濾波器包括一個或多個時變線性濾波器。
態樣50.根據態樣32至49中任一項的方法,其中一個或多個線性濾波器包括一個或多個時不變線性濾波器。
態樣51.根據態樣32至50中任一項的方法,還包括:使用附加的線性濾波器修改輸出音訊訊號。
態樣52.根據態樣51的方法,其中附加的線性濾波器是時變的。
態樣53.根據態樣51或52中任一項的方法,其中附加的線性濾波器是時不變的。
態樣54.根據態樣51至53中任一項的方法,其中附加的線性濾波器是線性預測寫碼(LPC)濾波器。
態樣55.根據態樣32至54中任一項的方法,還包括:在使用濾波器組從激發訊號生成多個頻帶特定訊號之前,使用附加的線性濾波器來修改激發訊號。
態樣56.根據態樣55的方法,其中附加的線性濾波器是時變的。
態樣57.根據態樣55或56中任一項的方法,其中附加的線性濾波器是時不變的。
態樣58.根據態樣55至57中任一項的方法,其中附加的線性濾波器是線性預測寫碼(LPC)濾波器。
態樣59.根據態樣32至58中任一項的方法,其中一個或多個特徵包括一個或多個對數梅爾頻譜特徵。
態樣60.根據態樣32至59中任一項的方法,其中與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的脈衝響應。
態樣61.根據態樣32至60中任一項的方法,其中與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的頻率響應。
態樣62.根據態樣32至61中任一項的方法,其中與一個或多個線性濾波器相關聯的一個或多個參數包括與一個或多個線性濾波器相關聯的有理傳遞函數係數。
態樣63.一種其上儲存有指令的非暫時性電腦可讀媒體,當由一個或多個處理器執行時,這些指令使一個或多個處理器來:接收與音訊訊號相對應的一個或多個特徵;基於一個或多個特徵生成激發訊號;使用濾波器組從激發訊號生成多個頻帶特定訊號,其中多個頻帶特定訊號對應於多個頻帶;使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數;使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號。
態樣64.根據態樣63的非暫時性電腦可讀媒體,其中由一個或多個處理器執行該指令,使得該一個或多個處理器執行根據態樣2至31和/或請求項33至62中的至少一個的一個或多個操作。
態樣65.一種用於音訊寫碼的裝置,該裝置包括:用於接收與音訊訊號相對應的一個或多個特徵的部件;用於基於一個或多個特徵生成激發訊號的部件;用於使用濾波器組從激發訊號生成多個頻帶特定訊號的部件,其中多個頻帶特定訊號對應於多個頻帶;用於使用機器學習(ML)濾波器估計器來響應於一個或多個特徵輸入到ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數的部件;用於使用語音估計器來響應於一個或多個特徵輸入到語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值的部件;以及用於基於對多個頻帶特定訊號的修改、根據一個或多個參數應用一個或多個線性濾波器、以及根據一個或多個增益值使用一個或多個增益放大器進行放大來生成輸出音訊訊號的部件。
態樣66:根據態樣65的裝置,還包括:用於執行根據態樣2至31和/或請求項33至62中的至少一個的一個或多個操作的部件。
100:方塊圖
190:編碼級
105:音訊訊號s[n]
110:編碼器系統
115:編碼器
120:媒體資料m[n]
125:話音合成系統
130:特徵f[m]
195:解碼級
140:解碼器系統
145:解碼器
150:輸出音訊訊號ŝ[n]
160:損失
200:方塊圖
205:機器學習濾波器估計器
210:諧波激發生成器
215:諧波激發訊號
220:雜訊生成器
225:雜訊激發訊號u[n]
230、240:線性濾波器
235、245、265:濾波器參數
250:諧波濾波的訊號s
h[n]
255:雜訊濾波的訊號s
n[n]
260:加法器
300:方塊圖
390H、390N:濾波器級
305:機器學習濾波器估計器
307:語音估計器
310、315、350、355:分析濾波器組
320、330:線性濾波器
325、335:濾波器參數
340、345、380、385:合成濾波器組
395H、395N:增益級
360、370:增益放大器
365、375:增益參數
400:方塊圖
410、420、430:分析濾波器組
415、425、435:增益放大器
440:省略
500:方塊圖
510:省略
600:方塊圖
700A、700B:方塊圖
790H、790N:濾波器級
705、725、745、765:全頻帶線性濾波器
710、750:線性濾波器
715、735、755、775:合成濾波器組
720、760:濾波器參數
740、780:增益參數
795H、795N:增益級
730、770:增益放大器
800:神經網路
810:輸入層
816:節點
812A、812B、812N:隱藏層
814:輸出層
900:過程
905、910、915、920、925、930:操作
1000:計算系統
1005:連接
1010:處理器
1012:快取
1015:記憶體
1020:唯讀記憶體
1025:隨機存取記憶體
1030:儲存設備
1032:服務1
1034:服務2
1036:服務3
1035:輸出設備
1040:通訊介面
1045:輸入設備
下文將參考下圖詳細描述本案的說明性實施例:
圖1是示出根據一些示例的具有編碼級和解碼級的寫碼器系統的示例架構的方塊圖;
圖2是示出根據一些示例的利用機器學習(ML)濾波器估計器來生成用於諧波激發訊號的線性濾波器的濾波器參數並且生成用於雜訊激發訊號的線性濾波器的濾波器參數的寫碼器系統的示例的方塊圖;
圖3是示出根據一些示例的寫碼器系統的示例的方塊圖,其利用機器學習(ML)濾波器估計器來生成用於諧波激發訊號的線性濾波器的濾波器參數並且生成用於雜訊激發訊號的線性濾波器的濾波器參數,並且利用語音估計器來生成用於諧波激發訊號的增益放大器的增益參數並且生成用於雜訊激發訊號的增益放大器的增益參數;
圖4是示出根據一些示例的省略濾波器級的合成濾波器組的寫碼器系統的一部分的示例的方塊圖;
圖5是示出根據一些示例的省略增益級的合成濾波器組的寫碼器系統的一部分的示例的方塊圖;
圖6是示出根據一些示例的寫碼器系統的示例的方塊圖,其中增益級在用於處理諧波激發訊號的濾波器級之前,並且其中增益級在用於處理雜訊激發訊號的濾波器級之前;
圖7A是示出根據一些示例的將用於濾波的全頻帶線性濾波器和用於增益的全頻帶線性濾波器應用於諧波激發訊號的寫碼器系統的示例的方塊圖;
圖7B是示出根據一些示例的將用於濾波的全頻帶線性濾波器和用於增益的全頻帶線性濾波器應用於雜訊激發訊號的寫碼器系統的示例的方塊圖;
圖8是示出根據一些示例的神經網路的示例的方塊圖,該神經網路可以由機器學習(ML)濾波器估計器使用以生成濾波器參數和/或由語音估計器用於生成增益參數;
圖9是示出根據一些示例的用於音訊寫碼的過程的流程圖;並且
圖10是示出了用於實施本文所述某些態樣的計算系統的示例的圖。
200:方塊圖
130:特徵f[m]
205:機器學習濾波器估計器
210:諧波激發生成器
215:諧波激發訊號
220:雜訊生成器
225:雜訊激發訊號u[n]
230、240:線性濾波器
235、245、265:濾波器參數
250:諧波濾波的訊號sh[n]
255:雜訊濾波的訊號sn[n]
260:加法器
Claims (30)
- 一種用於音訊寫碼的裝置,所述裝置包括: 記憶體;以及 耦接到所述記憶體的一個或多個處理器,所述一個或多個處理器被配置為: 接收與音訊訊號相對應的一個或多個特徵; 基於所述一個或多個特徵生成激發訊號; 使用濾波器組從所述激發訊號生成多個頻帶特定訊號,其中所述多個頻帶特定訊號對應於多個頻帶; 使用機器學習(machine learning, ML)濾波器估計器來響應於所述一個或多個特徵輸入到所述ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數; 使用語音估計器來響應於所述一個或多個特徵輸入到所述語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及 基於對所述多個頻帶特定訊號的修改、根據所述一個或多個參數應用所述一個或多個線性濾波器、以及根據所述一個或多個增益值使用所述一個或多個增益放大器進行放大,來生成輸出音訊訊號。
- 如請求項1所述的裝置,其中所述音訊訊號是話音訊號,並且其中所述輸出音訊訊號是作為所述話音訊號的重構變體的重構話音訊號。
- 如請求項1或2中任一項所述的裝置,其中為了接收所述一個或多個特徵,所述一個或多個處理器被配置為從以下至少一個接收所述一個或多個特徵: 編碼器,被配置為至少部分地通過對所述音訊訊號進行編碼來生成所述一個或多個特徵;或者 話音合成器,被配置為至少部分地基於文本輸入來生成所述一個或多個特徵,其中所述音訊訊號是朗讀所述文本輸入的語音的音訊表示。
- 如請求項1至3中任一項所述的裝置,其中所述激發訊號是以下中的一個: 與所述音訊訊號的諧波分量相對應的諧波激發訊號;或者 與所述音訊訊號的雜訊分量相對應的雜訊激發訊號。
- 如請求項1至4中任一項所述的裝置,其中所述ML濾波器估計器包括以下中的一個: 一個或多個訓練的ML模型;或者 一個或多個訓練的神經網路。
- 如請求項1至5中任一項所述的裝置,其中所述語音估計器包括以下中的一個: 一個或多個訓練的ML模型;或者 一個或多個訓練的神經網路。
- 如請求項1至6中任一項所述的裝置,其中為了生成所述輸出音訊訊號,所述一個或多個處理器被配置為使用合成濾波器組來組合所述多個頻帶特定訊號。
- 如請求項1至7中任一項所述的裝置,其中為了生成所述輸出音訊訊號,所述一個或多個處理器被配置為:根據所述一個或多個參數,通過將所述一個或多個線性濾波器中的至少一個應用於所述多個頻帶特定訊號中的每一個來修改所述多個頻帶特定訊號。
- 如請求項8所述的裝置,其中為了生成所述輸出音訊訊號,所述一個或多個處理器被配置為: 將所述多個頻帶特定訊號組合成經濾波的訊號; 使用第二濾波器組,從所述經濾波的訊號生成第二複數個頻帶特定訊號,其中所述第二複數個頻帶特定訊號對應於第二複數個頻帶; 根據所述一個或多個增益值,通過將所述一個或多個增益放大器中的至少一個應用於所述第二複數個頻帶特定訊號中的每一個來修改所述第二複數個頻帶特定訊號;以及 組合所述第二複數個頻帶特定訊號。
- 如請求項1至9中任一項所述的裝置,其中為了生成所述輸出音訊訊號,所述一個或多個處理器被配置為:根據所述一個或多個增益值,通過將所述一個或多個增益放大器中的至少一個應用於所述多個頻帶特定訊號中的每一個來修改所述多個頻帶特定訊號。
- 如請求項10所述的裝置,其中為了生成所述輸出音訊訊號,所述一個或多個處理器被配置為: 將所述多個頻帶特定訊號組合成經放大的訊號; 使用第二濾波器組,從所述經放大的訊號生成第二複數個頻帶特定訊號,其中所述第二複數個頻帶特定訊號對應於第二複數個頻帶; 根據所述一個或多個增益值,通過將所述一個或多個增益放大器中的至少一個應用於所述第二複數個頻帶特定訊號中的每一個來修改所述第二複數個頻帶特定訊號;以及 組合所述第二複數個頻帶特定訊號。
- 如請求項1至11中任一項所述的裝置,其中所述一個或多個處理器被配置為: 使用第一附加的線性濾波器修改所述輸出音訊訊號。
- 如請求項1至12中任一項所述的裝置,其中所述一個或多個處理器被配置為: 在使用所述濾波器組從所述激發訊號生成所述多個頻帶特定訊號之前,使用第二附加的線性濾波器來修改所述激發訊號。
- 如請求項1至13中任一項所述的裝置,其中所述一個或多個特徵包括一個或多個對數梅爾頻譜特徵。
- 如請求項1至14中任一項所述的裝置,其中與一個或多個線性濾波器相關聯的所述一個或多個參數包括以下至少一個: 與所述一個或多個線性濾波器相關聯的脈衝響應; 與所述一個或多個線性濾波器相關聯的頻率響應;或者 與所述一個或多個線性濾波器相關聯的有理傳遞函數係數。
- 一種用於音訊寫碼的方法,所述方法包括: 接收與音訊訊號相對應的一個或多個特徵; 基於所述一個或多個特徵生成激發訊號; 使用濾波器組從所述激發訊號生成多個頻帶特定訊號,其中所述多個頻帶特定訊號對應於多個頻帶; 使用機器學習(ML)濾波器估計器來響應於所述一個或多個特徵輸入到所述ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數; 使用語音估計器來響應於所述一個或多個特徵輸入到所述語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及 基於對所述多個頻帶特定訊號的修改、根據所述一個或多個參數應用所述一個或多個線性濾波器、以及根據所述一個或多個增益值使用所述一個或多個增益放大器進行放大,來生成輸出音訊訊號。
- 如請求項16所述的方法,其中所述音訊訊號是話音訊號,並且其中所述輸出音訊訊號是作為所述話音訊號的重構變體的重構話音訊號。
- 如請求項16或17中任一項所述的方法,其中接收所述一個或多個特徵包括從以下至少一個接收所述一個或多個特徵: 編碼器,其至少部分地通過對所述音訊訊號進行編碼來生成所述一個或多個特徵;或者 話音合成器,其至少部分地基於文本輸入來生成所述一個或多個特徵,其中所述音訊訊號是朗讀所述文本輸入的語音的音訊表示。
- 如請求項16至18中任一項所述的方法,其中所述激發訊號是以下中的一個: 與所述音訊訊號的諧波分量相對應的諧波激發訊號;或者 與所述音訊訊號的雜訊分量相對應的雜訊激發訊號。
- 如請求項16至19中任一項所述的方法,其中所述ML濾波器估計器包括以下中的一個: 一個或多個訓練的ML模型;或者 一個或多個訓練的神經網路。
- 如請求項16至20中任一項所述的方法,其中所述語音估計器包括以下中的一個: 一個或多個訓練的ML模型;或者 一個或多個訓練的神經網路。
- 如請求項16至21中任一項所述的方法,其中生成所述輸出音訊訊號包括使用合成濾波器組來組合所述多個頻帶特定訊號。
- 如請求項16至22中任一項所述的方法,其中生成所述輸出音訊訊號包括:根據所述一個或多個參數,通過將所述一個或多個線性濾波器中的至少一個應用於所述多個頻帶特定訊號中的每一個來修改所述多個頻帶特定訊號。
- 如請求項23所述的方法,其中生成所述輸出音訊訊號包括: 將所述多個頻帶特定訊號組合成經濾波的訊號; 使用第二濾波器組從所述經濾波的訊號生成第二複數個頻帶特定訊號,其中所述第二複數個頻帶特定訊號對應於第二複數個頻帶; 根據所述一個或多個增益值,通過將所述一個或多個增益放大器中的至少一個應用於所述第二複數個頻帶特定訊號中的每一個來修改所述第二複數個頻帶特定訊號;以及 組合所述第二複數個頻帶特定訊號。
- 如請求項16至24中任一項所述的方法,其中生成所述輸出音訊訊號包括:根據所述一個或多個增益值,將所述一個或多個增益放大器中的至少一個應用於所述多個頻帶特定訊號中的每一個來修改所述多個頻帶特定訊號。
- 如請求項25所述的方法,其中生成所述輸出音訊訊號包括: 將所述多個頻帶特定訊號組合成經放大的訊號; 使用第二濾波器組從所述經放大的訊號生成第二複數個頻帶特定訊號,其中所述第二複數個頻帶特定訊號對應於第二複數個頻帶; 根據所述一個或多個增益值,通過將所述一個或多個增益放大器中的至少一個應用於所述第二複數個頻帶特定訊號中的每一個來修改所述第二複數個頻帶特定訊號;以及 組合所述第二複數個頻帶特定訊號。
- 如請求項16至26中任一項所述的方法,還包括: 使用第一附加的線性濾波器修改所述輸出音訊訊號。
- 如請求項16至27中任一項所述的方法,還包括: 在使用所述濾波器組從所述激發訊號生成所述多個頻帶特定訊號之前,使用附加的線性濾波器來修改所述激發訊號。
- 如請求項16至28中任一項所述的方法,其中所述一個或多個特徵包括一個或多個對數梅爾頻譜特徵。
- 一種其上儲存有指令的非暫時性電腦可讀媒體,當由一個或多個處理器執行時,其使所述一個或多個處理器: 接收與音訊訊號相對應的一個或多個特徵; 基於所述一個或多個特徵生成激發訊號; 使用濾波器組從所述激發訊號生成多個頻帶特定訊號,其中所述多個頻帶特定訊號對應於多個頻帶; 使用機器學習(ML)濾波器估計器來響應於所述一個或多個特徵輸入到所述ML濾波器估計器而生成與一個或多個線性濾波器相關聯的一個或多個參數; 使用語音估計器來響應於所述一個或多個特徵輸入到所述語音估計器而生成與一個或多個增益放大器相關聯的一個或多個增益值;以及 基於對所述多個頻帶特定訊號的修改、根據所述一個或多個參數應用所述一個或多個線性濾波器、以及根據所述一個或多個增益值使用所述一個或多個增益放大器進行放大,來生成輸出音訊訊號。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GR20210100699 | 2021-10-14 | ||
GR20210100699 | 2021-10-14 | ||
PCT/US2022/077868 WO2023064738A1 (en) | 2021-10-14 | 2022-10-10 | Systems and methods for multi-band audio coding |
WOPCT/US22/77868 | 2022-10-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202333140A true TW202333140A (zh) | 2023-08-16 |
Family
ID=84102515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111138882A TW202333140A (zh) | 2021-10-14 | 2022-10-13 | 多頻帶寫碼的系統和方法 |
Country Status (4)
Country | Link |
---|---|
KR (1) | KR20240088780A (zh) |
CN (1) | CN118202407A (zh) |
TW (1) | TW202333140A (zh) |
WO (1) | WO2023064738A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
US11437050B2 (en) * | 2019-09-09 | 2022-09-06 | Qualcomm Incorporated | Artificial intelligence based audio coding |
-
2022
- 2022-10-10 KR KR1020247010993A patent/KR20240088780A/ko unknown
- 2022-10-10 WO PCT/US2022/077868 patent/WO2023064738A1/en active Application Filing
- 2022-10-10 CN CN202280067883.0A patent/CN118202407A/zh active Pending
- 2022-10-13 TW TW111138882A patent/TW202333140A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
KR20240088780A (ko) | 2024-06-20 |
CN118202407A (zh) | 2024-06-14 |
WO2023064738A1 (en) | 2023-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4029016B1 (en) | Artificial intelligence based audio coding | |
JP7106680B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
Song et al. | Effective spectral and excitation modeling techniques for LSTM-RNN-based speech synthesis systems | |
CN102934163B (zh) | 用于宽带语音编码的系统、方法、设备 | |
Fazel et al. | Synthasr: Unlocking synthetic data for speech recognition | |
Wang et al. | Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis | |
AU2013378793B2 (en) | Systems and methods for mitigating potential frame instability | |
US20130332171A1 (en) | Bandwidth Extension via Constrained Synthesis | |
Gu et al. | Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension. | |
CN116601702A (zh) | 一种用于多说话者和多语言语音合成的端到端神经系统 | |
Singh et al. | Spectral modification based data augmentation for improving end-to-end ASR for children's speech | |
O’Shaughnessy | Review of methods for coding of speech signals | |
Anees | Speech coding techniques and challenges: A comprehensive literature survey | |
TW202333140A (zh) | 多頻帶寫碼的系統和方法 | |
US9236058B2 (en) | Systems and methods for quantizing and dequantizing phase information | |
TW202324385A (zh) | 使用基於機器學習的時變濾波器和線性預測寫碼濾波器的組合的音訊寫碼 | |
WO2023064735A1 (en) | Audio coding using machine learning based linear filters and non-linear neural sources | |
Hwang et al. | A Unified Framework for the Generation of Glottal Signals in Deep Learning-based Parametric Speech Synthesis Systems. | |
WO2023212442A1 (en) | Audio sample reconstruction using a neural network and multiple subband networks | |
Lu et al. | Source-Filter-Based Generative Adversarial Neural Vocoder for High Fidelity Speech Synthesis | |
Kumar et al. | Effect of Linear Prediction Order to Modify Formant Locations for Children Speech Recognition | |
WO2023133001A1 (en) | Sample generation based on joint probability distribution | |
JP2023035921A (ja) | 非自己回帰音声合成方法及びシステム |