TW202345145A - 使用神經網路和多個子帶網路的音訊樣本重構 - Google Patents
使用神經網路和多個子帶網路的音訊樣本重構 Download PDFInfo
- Publication number
- TW202345145A TW202345145A TW112107679A TW112107679A TW202345145A TW 202345145 A TW202345145 A TW 202345145A TW 112107679 A TW112107679 A TW 112107679A TW 112107679 A TW112107679 A TW 112107679A TW 202345145 A TW202345145 A TW 202345145A
- Authority
- TW
- Taiwan
- Prior art keywords
- subband
- audio
- reconstructed
- neural network
- sample
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 387
- 238000000034 method Methods 0.000 claims abstract description 132
- 230000008569 process Effects 0.000 claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims description 308
- 238000012545 processing Methods 0.000 claims description 62
- 230000000306 recurrent effect Effects 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 23
- 230000007774 longterm Effects 0.000 claims description 10
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 31
- 238000004422 calculation algorithm Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 10
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000005284 excitation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 125000002015 acyclic group Chemical group 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
一種設備包括神經網路、第一子帶神經網路、第二子帶神經網路和重構器。該神經網路處理神經網路輸入以生成神經網路輸出。該神經網路輸入包括至少一個先前音訊樣本。該第一子帶神經網路處理第一子帶網路輸入以生成第一子帶音訊樣本。該第一子帶網路輸入至少包括該神經網路輸出。該第二子帶神經網路處理第二子帶網路輸入以生成第二子帶音訊樣本。該第二子帶網路輸入至少包括該神經網路輸出。該重構器基於該第一子帶音訊樣本和該第二子帶音訊樣本,生成經重構音訊樣本。該至少一個先前音訊樣本包括先前子帶音訊樣本、先前經重構音訊樣本或兩者。
Description
本揭露通常涉及使用神經網路和多個子帶網路的音訊樣本重構。
技術的進步產生了更小和更強大的計算設備。例如,目前存在各種便攜式個人計算設備,包括諸如行動和智慧電話的無線電話、平板電腦和膝上型電腦,它們體積小、重量輕且易於用戶攜帶。這些設備可以通過無線網路傳送語音和資料封包。此外,許多這樣的設備結合了附加的功能,諸如數位靜態相機、數位視訊相機、數位記錄器和音訊檔案播放器。此外,這種設備可以處理可執行指令,包括可以用於存取網際網路的軟體應用,諸如網頁瀏覽器應用。因此,這些設備可以包括顯著的計算能力。
這樣的計算設備可以包括生成樣本資料(諸如經重構音訊樣本)的能力。例如,設備可以接收被解碼(decode)和處理以生成經重構音訊樣本的經編碼(encode)音訊資料。使用單個神經網路生成經重構音訊樣本的過程往往具有高計算複雜度,這可能導致較慢的處理和較高的記憶體使用。
根據本揭露的一種實施方式,一種設備包括神經網路、第一子帶神經網路、第二子帶神經網路和重構器。神經網路被配置為處理一個或多個神經網路輸入以生成神經網路輸出。一個或多個神經網路輸入包括至少一個先前音訊樣本。第一子帶神經網路被配置為處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本。一個或多個第一子帶網路輸入至少包括神經網路輸出。第一經重構子帶音訊訊號對應於第一音訊子帶。第二子帶神經網路被配置為處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本。一個或多個第二子帶網路輸入至少包括神經網路輸出。第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶。重構器被配置為基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本。至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
根據本揭露的另一種實施方式,一種方法包括使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出。一個或多個神經網路輸入包括至少一個先前音訊樣本。該方法還包括使用第一子帶神經網路處理一個或多個第一子帶網路輸入,以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本。一個或多個第一子帶網路輸入至少包括神經網路輸出。第一經重構子帶音訊訊號對應於第一音訊子帶。該方法還包括使用第二子帶神經網路處理一個或多個第二子帶網路輸入,以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本。一個或多個第二子帶網路輸入至少包括神經網路輸出。第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶。該方法還包括使用重構器基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本。至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
根據本揭露的另一種實施方式,一種非暫時性電腦可讀媒體包括指令,該指令當由一個或多個處理器執行時,使得一個或多個處理器使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出。一個或多個神經網路輸入包括至少一個先前音訊樣本。當由一個或多個處理器執行時,該指令還使得一個或多個處理器使用第一子帶神經網路來處理一個或多個第一子帶網路輸入,以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本。一個或多個第一子帶網路輸入至少包括神經網路輸出。第一經重構子帶音訊訊號對應於第一音訊子帶。當由一個或多個處理器執行時,該指令還使得一個或多個處理器使用第二子帶神經網路來處理一個或多個第二子帶網路輸入,以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本。一個或多個第二子帶網路輸入至少包括神經網路輸出。第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶。當由一個或多個處理器執行時,該指令還使得一個或多個處理器基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本。至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
根據本揭露的另一種實施方式,一種裝置包括用於使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出的部件。一個或多個神經網路輸入包括至少一個先前音訊樣本。該裝置還包括用於使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本的部件。一個或多個第一子帶網路輸入至少包括神經網路輸出。第一經重構子帶音訊訊號對應於第一音訊子帶。該裝置還包括用於使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本的部件。一個或多個第二子帶網路輸入至少包括神經網路輸出。第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶。該裝置還包括用於基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本的部件。至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
在閱讀包括以下章節的整個申請之後,本揭露的其他態樣、優點和特徵將變得顯而易見:圖式說明、具體實施方式和請求項。
使用單個神經網路的音訊樣本重構往往具有較高的計算複雜度。揭露了使用神經網路和多個子帶網路的音訊樣本重構的系統和方法。例如,神經網路被配置為基於神經網路輸入生成神經網路輸出。子帶網路至少部分地基於神經網路輸出生成經重構子帶音訊樣本。例如,第一子帶網路生成與第一音訊子帶相關聯的第一經重構子帶音訊樣本。第二子帶網路生成與第二音訊子帶相關聯並是基於第一經重構子帶音訊樣本的第二經重構子帶音訊樣本。重構器通過組合第一經重構子帶音訊樣本、第二經重構子帶音訊樣本、一個或多個附加經重構子帶音訊樣本或其組合來生成經重構音訊樣本。
與對多音訊子帶執行所有處理的單個神經網路相比,讓神經網路對多(例如,所有)音訊子帶執行處理的初始階段以生成由多子帶音訊網路處理的神經網路輸出降低了複雜性。例如,為了生成具有第一採樣率(例如,16千赫茲(kilohertz, kHz))的經重構音訊訊號,單個神經網路的每一層將每秒執行16,000次以生成16,000個經重構音訊樣本。執行處理的初始階段以生成2個子帶音訊網路的神經網路輸出的神經網路將每秒執行8000次以輸出神經網路輸出(例如,16000個樣本/2個子帶網路=8000個樣本)。第一子帶網路每秒執行8000次以處理神經網路輸出,從而生成8000個第一經重構音訊樣本。第二子帶網路每秒執行8000次以處理神經網路輸出,從而生成8000個第二經重構音訊樣本。重構器每秒輸出16000個經重構音訊樣本(例如,基於8000個第一經重構音訊樣本+8000個第二經重構音訊樣本)。與讓神經網路每秒執行16000次相比,讓神經網路每秒執行8000次降低了複雜性。每個後續子帶網路處理先前子帶網路的輸出的分離子帶網路考慮了音訊子帶之間的任何依賴性。降低的複雜度可以提高處理速度,減少記憶體使用,或者兩者都有,同時多個子帶網路考慮了音訊子帶之間的依賴性。
下面參考圖式描述本揭露的具體態樣。在說明書中,公共特徵由公共參考號表示。如本文所使用的,各種術語僅用於描述具體實施方式的目的,而不旨在是實施方式的限制。例如,單數形式“一”、“一個”和“該”旨在也包括複數形式,除非上下文另有明確指示。此外,本文描述的一些特徵在一些實施方式中是單數的,而在其他實施方式中是複數的。為了說明,圖1描繪了包括一個或多個處理器(圖1的“處理器”190)的設備102,其指示在一些實施方式中設備102包括單個處理器190,並且在其他實施方式中設備102包括多個處理器190。為了在本文中易於引用,這些特徵通常被介紹為“一個或多個”特徵,並且隨後被稱為單數,除非描述了與多個特徵相關的態樣。在一些圖式中,使用了具體類型特徵的多個實例。儘管這些特徵在實體上和/或邏輯上是不同的,但是每個特徵使用了相同的參考號,以及不同的實例通過在參考號上添加字母來進行區分。
如本文所使用的,術語“包含”、“包含了”和“包含著”可以與“包括”、“包括了”或“包括著”互換地使用。附加地,術語“其中”可以與“在其中”互換地使用。如本文所使用的,“示例性”指示示例、實施方式和/或態樣,並且不應被解釋為限制實施方式或指示偏好或較佳的實施方式。如本文所使用的,用於修正諸如結構、組件、操作的元件的序數術語(例如,“第一”、“第二”、“第三”等)本身並不指示該元件相對於另一元件的任何優先級或順序,而是僅僅將該元件與具有相同名稱的另一元件(但使用了序數術語)進行區分。如本文所使用的,術語“集”指的是一個或多個具體元件,術語“多個”指的是多個(例如,兩個或更多個)具體元件。
如本文所使用的,“耦合”可以包括“通訊耦合”、“電耦合”或“實體耦合”,並且還可以(或可替代地)包括其任何組合。兩個設備(或組件)可以經由一個或多個其他設備、組件、線、匯流排、網路(例如有線網路、無線網路或其組合)等直接地或間接地耦合(例如,通訊耦合、電耦合或實體耦合)。電耦合的兩個設備(或組件)可以被包括在相同的設備或不同的設備中,並且可以經由電子電路、一個或多個連接器或電感耦合(作為說明性非限制性示例)來進行連接。在一些實施方式中,通訊耦合(諸如以電通訊)的兩個設備(或組件)可以經由一個或多個線、匯流排、網路等直接地或間接地發送和接收訊號(例如,數位訊號或類比訊號)。如本文所使用的,“直接耦合”可以包括耦合(例如,通訊耦合、電耦合或實體耦合)而沒有中間組件的兩個設備。
在本揭露中,諸如“確定”、“計算”、“估計”、“移位”、“調整”等的術語可以用來描述如何執行一個或多個操作。應當注意,這些術語不應被解釋為限制性的,並且可以利用其他技術來執行類似的操作。附加地,如本文所指的,“生成”、“計算”、“估計”、“使用”、“選擇”、“存取”和“確定”可以互換地使用。例如,“生成”、“計算”、“估計”或“確定”參數(或訊號)可以指主動地生成、估計、計算或確定參數(或訊號),或者可以指使用、選擇或存取已經生成的參數(或訊號),諸如由另一組件或設備生成的參數。
參考圖1,示出了被配置為執行音訊樣本重構的系統100的具體說明性態樣。系統100包括神經網路170和子帶網路162(例如,子帶神經網路)。
設備102包括一個或多個處理器190。一個或多個處理器190的樣本生成網路160包括經由神經網路170耦合到子帶網路162的組合器154。子帶網路162耦合到重構器166。在具體態樣中,樣本生成網路160被包括在音訊合成器150中。
在一些實施方式中,系統100對應於音訊編解碼(coding)系統。例如,音訊解碼器(例如,反饋循環自動編碼器(feedback recurrent autoencoder, FRAE)解碼器140)耦合到音訊合成器150。為了說明,在具體態樣中,FRAE解碼器140耦合到子帶網路162。一個或多個處理器190耦合到一個或多個揚聲器136。在一些實施方式中,一個或多個揚聲器136在設備102的外部。在其他實施方式中,一個或多個揚聲器136整合在設備102中。
FRAE解碼器140被配置成生成特徵資料(feature data, FD)171。例如,特徵資料171包括線性預測係數(linear predictive coefficients, LPC)141、基音增益173、基音估計175或其組合。LPC 141、基音增益173和基音估計175被提供為特徵資料171中包括的特徵資料類型的說明性示例。在其他示例中,特徵資料171可以附加地或可替代地包括各種其他類型的特徵資料,諸如巴克(Bark)倒譜、巴克譜、梅爾(Mel)譜、振幅譜或其組合。一種或多種類型的特徵資料可以在線性或對數振幅域中。組合器154被配置為處理一個或多個神經網路輸入151以生成嵌入(embedding)155,如參考圖3進一步描述的。神經網路170被配置為處理嵌入155以生成神經網路輸出161。在一些實施方式中,神經網路170包括自迴歸(autoregressive, AR)生成神經網路。例如,神經網路170被配置為處理基於子帶網路162、重構器166或兩者的先前輸出的嵌入,以生成由子帶網路162用來生成後續輸出的神經網路輸出161,如參考圖3進一步描述的。在一些態樣,神經網路170包括卷積神經網路(convolutional neural network, CNN)、WaveNet、PixelCNN、具有編碼器和解碼器的變換器網路、來自變換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformers, Bert)、另一類型的AR生成神經網路、另一類型的神經網路或其組合。
子帶網路162被配置為基於神經網路輸出161、特徵資料171或兩者來生成經重構子帶音訊樣本165,如參考圖4進一步描述的。重構器166(例如,子帶重構濾波器組)被配置為基於子帶網路162在一次或多次迭代期間生成的經重構子帶音訊樣本165生成經重構音訊訊號177的經重構音訊樣本167。
在一些實施方式中,音訊訊號105由一個或多個麥克風捕獲,由類比數位轉換器從類比訊號轉換為數位訊號,並由編碼器壓縮以用於儲存或傳輸。在這些實施方式中,FRAE解碼器140執行編碼器所使用的編解碼演算法的逆運算,以解碼經壓縮訊號來生成特徵資料171。在其他實施方式中,音訊訊號105(例如,經壓縮數位訊號)由一個或多個處理器190的音訊應用生成,並且FRAE解碼器140解碼經壓縮數位訊號以生成特徵資料171。音訊訊號105可以包括話音訊號、音樂訊號、另一類型的音訊訊號或其組合。
FRAE解碼器140被提供作為音訊解碼器的說明性示例。在一些示例中,一個或多個處理器190可以包括任何類型的音訊解碼器,這些音訊解碼器使用合適的音訊編解碼演算法(諸如線性預測編解碼演算法(例如,激勵碼線性預測(Code-Excited Linear Prediction, CELP)、代數CELP(algebraic CELP, ACELP)或其他線性預測技術)或另一音訊編解碼演算法來生成特徵資料171。
音訊訊號105可以被劃分為樣本區塊,其中每個區塊被稱為幀。例如,音訊訊號105包括音訊幀序列,包括音訊幀(audio frame, AF)103A、音訊幀103B、一個或多個附加音訊幀、音訊幀103N或其組合。在一些示例中,音訊幀103A-103N中的每個表示對應於10-20毫秒(milliseconds, ms)回放時間的音訊,並且音訊幀103A-103N中的每個包括約160個音訊樣本。
在一些示例中,經重構音訊訊號177對應於音訊訊號105的重構。例如,經重構音訊幀(reconstructed audio frame, RAF)153A包括對應於音訊幀103A的代表性音訊樣本(audio sample, AS)107的重構(例如,估計)的代表性經重構音訊樣本(RAS)167。音訊合成器150被配置為基於經重構音訊樣本167、一個或多個附加經重構音訊樣本或其組合(例如,包括經重構音訊樣本167的約160個經重構音訊樣本)來生成經重構音訊幀153A。經重構音訊訊號177包括作為音訊幀103A的重構或估計的經重構音訊幀153A。
在一些實施方式中,設備102對應於各種類型的設備之一或被包括在各種類型的設備之一中。在說明性示例中,一個或多個處理器190整合在耳機設備中,諸如參考圖12進一步描述的。在其他示例中,一個或多個處理器190被整合在如參考圖11所描述的行動電話或平板電腦設備,如參考圖13所描述的可穿戴電子設備,如參考圖14所描述的語音控制揚聲器系統,如參考圖15所描述的相機設備或如參考圖16所描述的虛擬實境耳機、混合實境耳機或增強實境耳機中的至少一個中。在另一說明性示例中,一個或多個處理器190被整合到交通工具中,諸如參考圖17和圖18進一步描述的。
在操作期間,FRAE解碼器140生成表示音訊幀103A的特徵資料171。在一些實施方式中,FRAE解碼器140通過解碼特徵資料171的部分(例如,LPC 141、基音增益173或基音估計175)的對應經編碼版本來生成特徵資料171的至少一部分(例如,LPC 141、基音增益173或基音估計175中的一個或多個)。在一些實施方式中,獨立於特徵資料171的部分(例如,LPC 141、基音增益173或基音估計175)的對應經編碼版本來估計特徵資料171的至少一部分(例如,LPC 141、基音增益173或基音估計175中的一個或多個)。為了說明,一個或多個處理器190的組件(例如,FRAE解碼器140、數位訊號處理器(digital signal processor, DSP)方塊或另一組件)可以基於特徵資料171的一部分的經編碼版本來估計特徵資料171的另一部分。例如,可以基於話音倒譜來估計基音估計175。作為另一示例,可以通過處理音訊幀103A的各種音訊特徵(諸如基音滯後、基音相關性、基音增益173、基音估計175、話音訊號的巴克頻率倒譜或其組合)來生成LPC 141。在具體態樣中,FRAE解碼器140將特徵資料171的經解碼部分提供給子帶網路162。在具體態樣中,一個或多個處理器190的組件(例如,FRAE解碼器140、DSP方塊或另一組件)向子帶網路162提供特徵資料171的經估計部分。
樣本生成網路160生成經重構音訊樣本167,如參考圖4進一步描述的。例如,組合器154組合神經網路輸入151以生成提供給神經網路170的嵌入155。神經網路170(例如,第一階段網路)處理嵌入155以生成神經網路輸出161。在具體態樣中,使用神經網路170來生成神經網路輸出161以執行多個(例如,所有)音訊子帶的處理的初始階段降低了複雜性。神經網路170向子帶網路162提供神經網路輸出161。
子帶網路162處理神經網路輸出161和特徵資料171以生成經重構子帶音訊樣本165。例如,每個子帶網路162生成與對應音訊子帶相關聯的經重構子帶音訊樣本165之一,如參考圖3-4進一步描述的。子帶網路162的每個後續子帶網路生成與經重構音訊樣本167的音訊子帶相關聯的經重構子帶音訊樣本,該經重構子帶音訊樣本基於由子帶網路162的先前子帶網路生成的經重構子帶音訊樣本,並且因此考慮了音訊子帶之間的任何依賴性。
重構器166組合由子帶網路162在一次或多次迭代期間生成的經重構子帶音訊樣本165以生成經重構音訊樣本167。在具體態樣中,重構器166包括子帶重構濾波器組,諸如正交鏡像濾波器(quadrature mirror filter, QMF)、偽QMF、Gabor濾波器組等。重構器166可以執行臨界採樣或過採樣中的任一者的子帶處理。過採樣能夠支持臨界採樣無法實現的傳輸漣波與混疊工作點。例如,對於特定傳輸漣波規格,臨界採樣濾波器組最多可以將混疊限制在特定臨限值位準,但過採樣濾波器組可以進一步降低混疊,同時保持相同的傳輸漣波規格。在子帶網路162試圖精確匹配跨音訊子帶的混疊分量以實現混疊消除態樣,過採樣減少了子帶網路162的一些負擔。即使混疊分量沒有精確匹配並且混疊沒有精確消除,如果每個子帶內的混疊開始時相對較低,則經重構音訊樣本167的最終輸出品質也可能是可接受的。
在具體態樣中,經重構音訊樣本167對應於音訊訊號105的音訊幀103A的音訊樣本107的重構。音訊合成器150生成至少包括經重構音訊樣本167的經重構音訊幀153A。
類似地,音訊合成器150(例如,樣本生成網路160)生成對應於音訊幀103B的重構或估計的經重構音訊幀153B、一個或多個附加經重構音訊幀、對應於音訊幀103N的重構或估計的經重構音訊幀153N或其組合。經重構音訊訊號177包括經重構音訊幀153A、經重構音訊幀153 B、一個或多個附加經重構音訊幀、經重構音訊幀153N或其組合。
在一些態樣中,音訊合成器150經由一個或多個揚聲器136輸出經重構音訊訊號177。在一些示例中,設備102將經重構音訊訊號177提供給另一設備,諸如儲存設備、用戶設備、網路設備、回放設備或其組合。在一些態樣中,經重構音訊訊號177包括經重構話音訊號、經重構音樂訊號、經重構動物聲音訊號、經重構雜訊訊號或其組合。
在一些實施方式中,子帶網路162將經重構子帶音訊樣本165提供給組合器154,重構器166將經重構音訊樣本167提供給組合器154或者兩者,作為用於後續迭代的神經網路輸入151的一部分。
通過讓神經網路170執行處理的初始階段以生成神經網路輸出161,系統100降低了複雜性,從而減少了處理時間、記憶體使用或兩者。通過讓子帶網路162的每個後續子帶網路生成與對應音訊子帶相關聯的、基於由子帶網路162的先前子帶網路生成的經重構音訊樣本的經重構音訊樣本,系統100考慮了子帶之間的依賴性,從而降低了子帶之間的不連續性。
參考圖2,示出了可操作以使用樣本生成網路160執行音訊樣本重構的系統200的說明性態樣的圖。在一些態樣中,系統100包括系統200的一個或多個組件。
系統200包括被配置為與設備102通訊的設備202。設備202包括經由數據機206耦合到發送器208的編碼器204。設備102包括經由數據機240耦合到FRAE解碼器140的接收器238。音訊合成器150包括耦合到樣本生成網路160的幀速率網路250。FRAE解碼器140耦合到幀速率網路250。
在一些態樣,設備202的編碼器204使用音訊編解碼演算法來處理圖1的音訊訊號105。例如,音訊訊號105可以包括數位化音訊訊號。在一些實施方式中,使用消除混疊的濾波器、轉換為離散時間的採樣器以及將類比訊號轉換到數位域的類比數位轉換器來生成數位化音訊訊號。所得的數位化音訊訊號是離散時間音訊訊號,其樣本也被離散化。使用音訊編解碼演算法,編碼器204可以使用盡可能少的比特生成表示音訊訊號105的經壓縮音訊訊號,同時嘗試保持音訊的一定品質級別。音訊編解碼演算法可以包括線性預測編解碼演算法(例如,CELP、ACELP或其他線性預測技術)或其他語音編解碼演算法。
作為示例,編碼器204使用音訊編解碼演算法對音訊訊號105的音訊幀103A進行編碼以生成經壓縮音訊訊號的經編碼音訊資料241。數據機206經由發送器208發起經壓縮音訊訊號(例如,經編碼音訊資料241)的傳輸。設備102的數據機240經由接收器238接收經壓縮音訊訊號(例如,經編碼音訊資料241),並將經壓縮音訊訊號(例如,經編碼音訊資料241)提供給FRAE解碼器140。
FRAE解碼器140解碼經壓縮音訊訊號以提取表示音訊訊號105的特徵,並將特徵提供給音訊合成器150以生成經重構音訊訊號177。例如,FRAE解碼器140對經編碼音訊資料241進行解碼,以生成表示音訊幀103A的特徵253。
特徵253可以包括由編碼器204生成的音訊幀103A的任何特徵集。在一些實施方式中,特徵253可以包括量化特徵。在一些實施方式中,特徵253可以包括去量化特徵。在具體態樣中,特徵253包括LPC 141、基音增益173、基音估計175、具有分數準確度的基音滯後、話音訊號的巴克倒譜、18頻帶巴克頻率倒譜、整數基音週期(或滯後)(例如,在16和256樣本之間)、分數基音週期(或滯後)、基音相關性(例如,在0和1之間)或其組合。在一些實施方式中,特徵253可以包括音訊幀序列中音訊幀103A之前的一個或多個(例如,兩個)音訊幀、音訊幀103A、音訊幀序列中音訊幀103A之後的一個或多個(例如,兩個)音訊幀或者其組合的特徵。
在具體態樣中,特徵253顯式地包括特徵資料171的至少一部分(例如,LPC 141、基音增益173、基音估計175或其組合),並且FRAE解碼器140將特徵資料171的至少一部分(例如,LPC 141、基音增益173、基音估計175或其組合)提供給樣本生成網路160。
在具體態樣中,從經編碼音訊資料241提取的特徵253不顯式地包括具體特徵(例如,LPC 141、基音增益173、基音估計175或其組合),並且具體特徵是基於顯式地被包括在特徵253中的其他特徵來估計的。例如,FRAE解碼器140向一個或多個處理器190的另一組件(例如,DSP方塊)提供顯式地被包括在特徵253中的一個或多個特徵,以生成具體特徵,並且該另一組件向樣本生成網路160提供該具體特徵。為了說明,在特徵253不顯式地包括LPC 141而包括巴克倒譜的實施方式中,可以基於巴克倒譜來估計LPC 141。為了說明,通過進行以下操作來估計LPC 141:將18頻帶巴克頻率倒譜轉換成線性頻譜密度(例如,功率譜密度(power spectral density, PSD))、使用逆快速傅立葉變換(inverse Fast Fourier Transform, iFFT)將線性頻譜密度(例如PSD)轉換成自相關,以及對自相關使用Levinson-Durbin演算法來確定LPC 141。作為另一示例,在特徵253不顯式地包括基音估計175而包括音訊幀103 A的話音倒譜的實施方式中,基音估計175可以基於話音倒譜來估計。
在一些態樣中,FRAE解碼器140向幀速率網路250提供特徵253中的一個或多個特徵243,以生成調節向量251。在具體實施方式中,幀速率網路250包括卷積(convolutional, conv.)層270、卷積層272、全連接(fully connected, FC)層276和全連接層278。卷積層270處理特徵243以生成提供給卷積層272的輸出。在一些情況下,卷積層270和卷積層272包括相同大小的濾波器。例如,卷積層270和卷積層272可以包括大小為3的濾波器,引起五個音訊幀的接受域(receptive field)(例如,兩個先前音訊幀、音訊幀103A以及兩個後續音訊幀的特徵)。卷積層272的輸出被添加到特徵243,然後由全連接層276處理以生成輸出,該輸出被提供作為全連接層278的輸入。全連接層278處理輸入以生成調節向量251。
幀速率網路250向樣本生成網路160提供調節向量251。在一個說明性示例中,調節向量251是128維向量。在一些態樣中,調節向量251、特徵資料171(例如,LPC 141、基音增益173、基音估計175或其組合)或兩者可以在處理每個音訊幀的持續時間內保持恆定。樣本生成網路160基於調節向量251、特徵資料171或兩者來生成經重構音訊樣本167,如參考圖3-4進一步描述的。在具體態樣中,經重構音訊幀153A至少包括經重構音訊樣本167。
在一些實施方式中,FRAE解碼器140和幀速率網路250中的每一個被配置為以幀速率(例如,每10ms音訊幀一次)處理資料。在一些實施方式中,樣本生成網路160以採樣速率(例如,每次迭代生成一個經重構音訊樣本)處理資料。
參考圖3,示出了樣本生成網路160的說明性實施方式的圖。樣本生成網路160包括經由神經網路170耦合到子帶網路162的組合器154。
在具體態樣中,神經網路170經由一個或多個組合器耦合到一個或多個子帶網路162。例如,神經網路170耦合到子帶網路162A,並且神經網路170經由組合器368A耦合到子帶網路162B。
在一些態樣中,神經網路170對應於第一階段,在該階段期間使用組合網路處理表示神經網路輸入151的嵌入155,並且子帶網路162對應於第二階段,在該階段期間使用相應的子帶網路單獨地處理每個子帶網路輸入集(即基於神經網路輸出161)以生成對應的經重構子帶音訊樣本。
神經網路170被配置為處理嵌入155以生成神經網路輸出161。神經網路170包括多個循環層。循環層包括閘控循環單元(gated recurrent unit, GRU),諸如GRU 356。在具體態樣中,多個循環層包括:包括GRU356的第一循環層、包括GRU 358的第二循環層、一個或多個附加循環層或其組合。
組合器154耦合到多個循環層中的第一循環層,每個先前循環層的GRU(例如GRU 356)耦合到後續循環層的GRU,並且最後循環層(例如第二循環層)的GRU(例如GRU 358)耦合到子帶網路162。
包括兩個循環層的神經網路170被提供作為說明性示例。在其他示例中,神經網路170可以包括少於兩個或多於兩個循環層。在一些實施方式中,神經網路170可以包括一個或多個附加層、一個或多個附加連接或其組合,為了便於說明而未示出。
組合器154被配置為處理一個或多個神經網路輸入151以生成嵌入155。一個或多個神經網路輸入151包括調節向量251、先前子帶音訊樣本311A、先前子帶音訊樣本311B、先前音訊樣本371、預測音訊資料353或其組合。
在具體態樣中,在先前迭代期間由子帶網路162A生成先前子帶音訊樣本311A。在具體態樣中,在先前迭代期間由子帶網路162B生成先前子帶音訊樣本311B。在具體態樣中,預測音訊資料353包括在一個或多個先前迭代期間由子帶網路162A的LP模組生成的預測音訊資料、在一個或多個先前迭代期間由子帶網路162B的LP模組生成的預測音訊資料或包括兩者。
神經網路170的多個循環層被配置為處理嵌入155。在一些實施方式中,GRU 356基於先前第一隱藏狀態和嵌入155確定第一隱藏狀態。在先前迭代期間,由GRU 356生成先前第一隱藏狀態。GRU 356將第一隱藏狀態輸出到GRU 358。GRU 358基於第一隱藏狀態和先前第二隱藏狀態確定第二隱藏狀態。在先前迭代期間,由GRU 358生成先前第二隱藏狀態。每個先前GRU向多個循環層的後續GRU輸出隱藏狀態,並且後續GRU基於接收到的隱藏狀態和先前隱藏狀態生成隱藏狀態。神經網路輸出161基於最後循環層的GRU(例如,GRU 358)的隱藏狀態。神經網路170將神經網路輸出161輸出到子帶網路162A和組合器368A。
在一些示例中,可以使用組合器154的網路嵌入層對一個或多個神經網路輸入151進行mu律(mu-law)編碼和嵌入,以生成嵌入155。例如,嵌入155可以(例如,在嵌入矩陣中)將每個mu律級別映射到向量,本質上學習要應用於mu律值的非線性函數集。嵌入矩陣(例如,嵌入155)可以被發送到多個循環層(例如,GRU 356、GRU 358或其組合)中的一個或多個。 例如,嵌入矩陣(例如,嵌入155)可以被輸入到GRU 356,並且GRU 356的輸出可以被輸入到GRU 358。在另一示例中,嵌入矩陣(例如,嵌入155)可以分離地輸入到GRU 356、GRU 358或兩者。
在一些態樣中,可以計算輸入到GRU的嵌入矩陣與GRU的非循環權重的對應子矩陣的乘積。可以對GRU的所有閘(例如,更新閘(update, gate, u)、重置閘(reset, gate, r)和隱藏狀態(hidden state, h))和所有嵌入輸入(例如,一個或多個神經網路輸入151)應用變換。在一些情況下,一個或多個神經網路輸入151中的一個或多個可以不被嵌入,諸如調節向量251。使用先前子帶音訊樣本311A作為嵌入輸入的示例,E可以表示嵌入矩陣,並且 U
(u,s)可以表示包括應用於先前子帶音訊樣本311A的嵌入的行的U
(n)的子矩陣,並且可以導出新的嵌入矩陣V
(u,s)= U
(u,s)E,其直接地將先前子帶音訊樣本311A映射到更新閘計算的非循環項。
當嵌入矩陣(例如,嵌入155)被分離地輸入到GRU 356和GRU 358時,來自GRU 358的輸出或者來自GRU 356和GRU 358的輸出被作為神經網路輸出161提供給子帶網路162和組合器368A。例如,神經網路170將神經網路輸出161作為一個或多個子帶神經網路輸入361A提供給子帶網路162A和組合器368A。
每個子帶網路162生成經重構音訊訊號177的經重構子帶音訊訊號的經重構子帶音訊樣本。為了說明,經重構音訊訊號177的第一經重構子帶音訊訊號對應於至少第一音訊子帶,並且經重構音訊訊號177的第二經重構子帶音訊訊號對應於至少第二音訊子帶。第一音訊子帶與第一頻率範圍相關聯,第二音訊子帶與第二頻率範圍相關聯,如參考圖7-9進一步描述的。
例如,子帶網路162A至少部分地基於特徵資料171來處理一個或多個子帶神經網路輸入361A,以生成經重構音訊訊號177的第一經重構子帶音訊訊號的經重構子帶音訊樣本165A。例如,子帶網路162A基於特徵資料171、先前子帶音訊樣本311A、先前音訊樣本371、預測音訊資料(例如,預測音訊資料353的至少一部分)或其組合來生成經重構子帶音訊樣本165A,如參考圖5和6進一步描述的。
組合器368A組合一個或多個子帶神經網路輸入361A和經重構子帶音訊樣本165A,以生成一個或多個子帶神經網路輸入361B。子帶網路162B至少部分地基於特徵資料171來處理一個或多個子帶神經網路輸入361B,以生成經重構音訊訊號177的第二經重構子帶音訊訊號的經重構子帶音訊樣本165B。例如,子帶網路162B基於特徵資料171、先前子帶音訊樣本311A、先前子帶音訊樣本311B、先前音訊樣本371、預測音訊資料(例如,預測音訊資料353的至少一部分)、經重構子帶音訊樣本165A或其組合來生成經重構子帶音訊樣本165B,如參考圖5和6進一步描述的。
包括兩個子帶網路的子帶網路162被提供作為說明性示例。在其他示例中,子帶網路162包括多於兩個的子帶網路(即,大於兩的具體總數的子帶網路,例如四個子帶網路)。
重構器166組合由子帶網路162在一次或多次迭代期間生成的經重構子帶音訊樣本以生成經重構音訊樣本167。例如,重構器166組合經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、一個或多個附加子帶音訊樣本或其組合,以生成經重構音訊樣本167。
在具體實施方式中,重構器166組合在先前迭代中生成的一個或多個子帶音訊樣本(例如,先前子帶音訊樣本311A、先前子帶音訊樣本311B、一個或多個附加子帶音訊樣本或其組合)以生成先前經重構音訊樣本。在另一具體實施方式中,重構器166組合在先前迭代中生成的一個或多個子帶音訊樣本(例如,先前子帶音訊樣本311A、先前子帶音訊樣本311B或兩者)、在當前迭代中生成的一個或多個子帶音訊樣本(例如,經重構子帶音訊樣本165A、經重構子帶音訊樣本165 B或兩者)、一個或多個附加子帶音訊樣本或其組合,以生成經重構音訊樣本167。
在具體態樣中,子帶網路162、重構器166或兩者為後續迭代生成一個或多個神經網路輸入151的至少一部分。例如,子帶網路162A提供經重構子帶音訊樣本165A作為用於後續迭代的先前子帶音訊樣本311A。作為另一示例,子帶網路162B提供經重構子帶音訊樣本165B作為用於後續迭代的先前子帶音訊樣本311B。在具體態樣中,重構器166提供經重構音訊樣本167作為用於後續迭代的先前音訊樣本371。在具體實施方式中,子帶網路162A提供用於後續迭代的預測音訊資料353的至少第一部分。在具體實施方式中,子帶網路162B提供用於後續迭代的預測音訊資料353的至少第二部分。
為了便於說明,子帶網路162A和子帶網路162B被描述為分離的模組。在其他示例中,相同的子帶網路在生成經重構子帶音訊樣本165A之後生成經重構子帶音訊樣本165B。
在一些示例中,重構器166被配置為根據神經網路170的推斷生成經重構音訊訊號177的多個經重構音訊樣本。例如,重構器166可以從經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、一個或多個附加經重構音訊樣本或其組合生成多個經重構音訊樣本。在說明性示例中,重構器166包括經臨界採樣的2頻帶濾波器組。音訊訊號105(例如,s[n])具有第一採樣率(例如,16kHz),並且被編碼為第一子帶音訊訊號(例如,s_L[n])和第二子帶音訊訊號(例如,s_H[n])。
在具體態樣中,第一子帶音訊訊號(例如,s_L[n])對應於包括第一頻率範圍的第一音訊子帶。第二子帶音訊訊號(例如, s_H[n])對應於包括不同於第一頻率範圍的第二頻率範圍的第二音訊頻帶。作為示例,第一頻率範圍是從第一起始頻率到第一結束頻率,並且第二頻率範圍是從第二起始頻率到第二結束頻率。在具體示例中,第二起始頻率與第一結束頻率鄰接且在第一結束頻率之後。第一子帶音訊訊號(例如,s_L[n])和第二子帶音訊訊號(例如,s_H[n])中的每一個具有第二採樣率(例如,8kHz),其是第一採樣率(例如,16kHz)的一半。
重構器166生成分別表示第一子帶音訊訊號和第二子帶音訊訊號的經重構版本的第一經重構子帶音訊訊號(例如,包括經重構子帶音訊樣本165A)和第二經重構音訊訊號(例如,包括經重構子帶音訊樣本165B)。
重構器166對第一經重構子帶音訊訊號和第二經重構音訊訊號中的每一個進行上採樣和濾波,並將得到的經上採樣濾波訊號相加以生成經重構音訊訊號177,其具有第一經重構子帶音訊訊號和第二經重構音訊訊號的兩倍的採樣率。因此,輸入到重構器166的第一經重構子帶音訊訊號(例如,s_L)的N個經重構樣本的幀和第二經重構子帶音訊訊號(例如,s_H)的N個經重構樣本的對應幀引起了經重構音訊訊號177的2N個經重構樣本的輸出。因此,重構器166可以在每次迭代中基於經重構子帶音訊樣本165A和經重構子帶音訊樣本165B生成多個經重構音訊樣本(例如,兩個經重構音訊樣本)。
在一些實施方式中,在迭代的第一處理階段期間,子帶網路162A生成經重構子帶音訊樣本165A,其在生成兩個經重構音訊樣本期間由重構器166使用。在迭代的第二處理階段期間,子帶網路162B生成經重構子帶音訊樣本165B,其在生成兩個經重構音訊樣本期間也由重構器166使用。在一些態樣中,子帶網路162B在第一處理階段期間是空閒的,並且子帶網路162A在第二處理階段期間是空閒的。子帶網路162A和子帶網路162B中的每一個以採樣率(例如8kHz)進行操作,該採樣率是經重構音訊訊號177的第一採樣率(例如16kHz)的一半。例如,子帶網路162A和子帶網路162B中的每一個每兩個處理階段生成用於生成兩個經重構音訊樣本的資料。
參考圖4,示出了樣本生成網路160的說明性實施方式的圖。在具體態樣中,每個子帶網路162被配置為至少部分地基於神經網路輸出161來生成經重構子帶音訊樣本。
子帶網路162包括子帶網路162A、子帶網路162B、子帶網路162C和子帶網路162D。神經網路170耦合到組合器368A、組合器368B和組合器368C。組合器368A耦合到子帶網路162A和子帶網路162B。組合器368B耦合到子帶網路162B和子帶網路162C。組合器368C耦合到子帶網路162C和子帶網路162D。神經網路170將神經網路輸出161提供給組合器368A、組合器368B和組合器368C中的每一個。
子帶網路162以與參考圖3所描述的基本相似的方式進行執行。每個子帶網路162生成經重構音訊訊號177的經重構子帶音訊訊號的經重構子帶音訊樣本。為了說明,經重構音訊訊號177的第一經重構子帶音訊訊號對應於至少第一音訊子帶,經重構音訊訊號177的第二經重構子帶音訊訊號對應於至少第二音訊子帶,經重構音訊訊號177的第三經重構子帶音訊訊號對應於至少第三音訊子帶,經重構音訊訊號177的第四經重構子帶音訊訊號對應於至少第四音訊子帶,等等。第一音訊子帶與第一頻率範圍相關聯,第二音訊子帶與第二頻率範圍相關聯,第三音訊子帶與第三頻率範圍相關聯,第四音訊子帶與第四頻率範圍相關聯,如參考圖8-9進一步描述的。
例如,子帶網路162A生成經重構音訊訊號177的第一經重構子帶音訊訊號的經重構子帶音訊樣本165A。例如,子帶網路162A基於特徵資料171、先前子帶音訊樣本311A、先前音訊樣本371、預測音訊資料(例如,預測音訊資料353的至少一部分)或其組合來生成經重構子帶音訊樣本165A,如參考圖5和6進一步描述的。
組合器368A組合一個或多個子帶神經網路輸入361A和經重構子帶音訊樣本165A,以生成一個或多個子帶神經網路輸入361B。子帶網路162B生成經重構音訊訊號177的第二經重構子帶音訊訊號的經重構子帶音訊樣本165B。例如,子帶網路162B基於特徵資料171、先前子帶音訊樣本311A、先前子帶音訊樣本311B、先前音訊樣本371、預測音訊資料(例如,預測音訊資料353的至少一部分)、經重構子帶音訊樣本165A或其組合來生成經重構子帶音訊樣本165B,如參考圖5和6進一步描述的。
子帶網路162B將經重構子帶音訊樣本165B提供給組合器368B。組合器368B組合神經網路輸出161和經重構子帶音訊樣本165B,以生成一個或多個子帶神經網路輸入361C。
子帶網路162C至少部分地基於特徵資料171來處理一個或多個子帶神經網路輸入361C,以生成經重構音訊訊號177的第三經重構子帶音訊訊號的經重構子帶音訊樣本165C。例如,子帶網路162C基於特徵資料171、先前子帶音訊樣本311A、先前子帶音訊樣本311B、由子帶網路162C在先前迭代期間生成的先前子帶音訊樣本、預測音訊資料(例如,預測音訊資料353的至少一部分)、經重構子帶音訊樣本165A、經重構子帶音訊樣本165B或其組合來生成經重構子帶音訊樣本165C,如參考圖5和6進一步描述的。
子帶網路162C將經重構子帶音訊樣本165C提供給組合器368C。組合器368C組合神經網路輸出161和經重構子帶音訊樣本165C以生成一個或多個子帶神經網路輸入361D。
子帶網路162D至少部分地基於特徵資料171來處理一個或多個子帶神經網路輸入361D,以生成經重構音訊訊號177的第四經重構子帶音訊訊號的經重構子帶音訊樣本165D。例如,子帶網路162D基於特徵資料171、先前子帶音訊樣本311A、先前子帶音訊樣本311B、由子帶網路162C在先前迭代期間生成的先前子帶音訊樣本、由子帶網路162D在先前迭代期間生成的先前子帶音訊樣本311D、預測音訊資料(例如,預測音訊資料353的至少一部分)、經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、經重構子帶音訊樣本165C或其組合來生成經重構子帶音訊樣本165D,如參考圖5和圖6進一步描述的。
重構器166組合由子帶網路162在一次或多次迭代期間生成的經重構子帶音訊樣本以生成經重構音訊樣本167。例如,重構器166通過組合經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、經重構子帶音訊樣本165C、經重構子帶音訊樣本165D、一個或多個附加經重構子帶音訊樣本或其組合來生成經重構音訊樣本167。
在具體態樣中,子帶網路162、重構器166或兩者為後續迭代生成一個或多個神經網路輸入151的至少一部分。例如,每個子帶網路162提供經重構子帶音訊樣本作為用於後續迭代的先前子帶音訊樣本。在具體態樣中,重構器166提供經重構音訊樣本167作為用於後續迭代的先前音訊樣本371。在具體實施方式中,每個子帶網路162提供用於後續迭代的預測音訊資料353的至少一部分。
儘管在圖4所示的示例中,來自子帶網路162A的先前子帶音訊樣本311A和來自子帶網路162D的先前子帶音訊樣本311D作為神經網路輸入151的一部分被提供給組合器154,但是應當理解,在另一示例中,來自子帶網路162B的先前子帶音訊樣本311B和來自子帶網路162C的先前子帶音訊樣本也作為神經網路輸入151的一部分被提供。
為了便於說明,子帶網路162A、子帶網路162B、子帶網路162C和子帶網路162D被描述為分離的模組。在具體態樣中,相同的子帶網路一個接一個地生成多個經重構音訊樣本。為了說明,在一些示例中,相同的子帶網路在生成經重構子帶音訊樣本165A之後生成經重構子帶音訊樣本165B。在一些示例中,相同的子帶網路在生成經重構子帶音訊樣本165B之後生成經重構子帶音訊樣本165C。在一些示例中,相同的子帶網路在生成經重構子帶音訊樣本165C之後生成經重構子帶音訊樣本165D。
在一些示例中,重構器166可以從經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、經重構子帶音訊樣本165C、經重構子帶音訊樣本165D、一個或多個附加經重構音訊樣本或其組合生成多個經重構音訊樣本。在說明性示例中,重構器166包括經臨界採樣的4頻帶濾波器組。音訊訊號105(例如,s[n])具有第一採樣率(例如,16千赫茲(kHz)),並被編碼為第一子帶音訊訊號、第二子帶音訊訊號、第三子帶音訊訊號和第四子帶音訊訊號。在具體態樣中,四個子帶音訊訊號是連續的(例如,鄰接且不重疊),並且四個子帶音訊訊號中的每一個具有第二採樣率(例如,4kHz),該第二採樣率是第一採樣率(例如,16kHz)的四分之一。重構器166處理來自子帶網路162A的第一經重構子帶音訊訊號(例如,包括經重構子帶音訊樣本165A)、來自子帶網路162B的第二經重構音訊訊號(例如,包括經重構子帶音訊樣本165B)、來自子帶網路162C的第三經重構子帶音訊訊號(例如,包括經重構子帶音訊樣本165C)、以及來自子帶網路162D的第四經重構音訊訊號(例如,包括經重構子帶音訊樣本165D),它們分別表示第一子帶音訊訊號、第二子帶音訊訊號、第三子帶音訊訊號和第四子帶音訊訊號的經重構版本。
重構器166對第一經重構子帶音訊訊號、第二經重構音訊訊號、第三經重構音訊訊號和第四經重構音訊訊號中的每一個進行上採樣和濾波,並將得到的經上採樣濾波訊號相加以生成經重構音訊訊號177,其具有第一經重構子帶音訊訊號、第二經重構音訊訊號、第三經重構子帶音訊訊號和第四經重構音訊訊號的四倍的採樣率。因此,輸入到重構器166的第一經重構子帶音訊訊號的N個經重構樣本的幀、第二經重構子帶音訊訊號的N個經重構樣本的相應幀、第三經重構子帶音訊訊號的N個經重構樣本的對應幀以及第四經重構子帶音訊訊號的N個經重構樣本的對應幀引起經重構音訊訊號177的4N個經重構樣本的輸出。因此,重構器166可以在每次迭代中基於經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、經重構子帶音訊樣本165C和經重構子帶音訊樣本165D生成多個經重構音訊樣本(例如,四個經重構音訊樣本)。
子帶網路162A、子帶網路162B、子帶網路162C和子帶網路162D中的每一個以採樣速率(例如,4kHz)操作,該採樣速率是經重構音訊訊號177的第一採樣速率(例如,16kHz)的四分之一。例如,子帶網路162A、子帶網路162B、子帶網路162C和子帶網路162D中的每一個每四個處理階段生成用於生成四個經重構音訊樣本的資料。
參考圖5,示出了樣本生成網路160的子帶網路162的說明性實施方式的圖。在具體態樣中,子帶網路162表示子帶網路162A、子帶網路162B、子帶網路162C或子帶網路162D中的一個或多個的說明性實施方式。
子帶網路162包括耦合到線性預測(LP)模組564的神經網路562。神經網路562包括一個或多個循環層、前饋層、softmax層556或其組合。循環層包括GRU,諸如GRU 552。前饋層包括全連接層,諸如FC層554。
包括一個循環層的神經網路562被提供作為說明性示例。在其他示例中,神經網路562可以包括多個循環層。多個循環層的每個先前循環層的GRU耦合到隨後的循環層的GRU。一個或多個循環層的最後一個循環層的GRU 552耦合到FC層554。FC層554耦合到softmax層556。在一些實施方式中,神經網路562可以包括一個或多個附加層、一個或多個附加連接或其組合,為了便於說明而未示出。
一個或多個循環層被配置為處理一個或多個子帶神經網路輸入361。在一些實施方式中,一個或多個循環層的第一循環層的GRU(例如,GRU 552)基於先前第一隱藏狀態和一個或多個子帶神經網路輸入361確定第一隱藏狀態。在先前迭代期間,先前第一隱藏狀態是由第一循環層的GRU(例如,GRU 552)生成的。
在一些實施方式中,神經網路562包括多個循環層。每個先前循環層的GRU向多個循環層的後續循環層的GRU輸出隱藏狀態,並且後續循環層的GRU基於接收到的隱藏狀態和先前隱藏狀態生成隱藏狀態。
一個或多個循環層的最後一個循環層的GRU 552向FC層554輸出第一隱藏狀態。FC層554被配置為處理一個或多個循環層的輸出。例如,FC層554包括雙FC層。FC層554的兩個全連接層的輸出與逐元素加權和進行組合以生成輸出。FC層554的輸出被提供給softmax層556以生成機率分佈557。在具體態樣中,機率分佈557指示殘差資料563的各種值的機率。
在一些實施方式中,一個或多個循環層接收嵌入155(除了神經網路輸出161之外)作為一個或多個子帶神經網路輸入361。GRU 552的輸出或多個循環層的GRU的輸出被提供給FC層554。在一些示例中,FC層554(例如,雙FC層)可以包括與逐元素加權和組合的兩個全連接層。使用組合的全連接層可以使得能夠計算機率分佈557,而不顯著增加前一層的大小。在一個說明性示例中,FC層554可以被定義為dual_fc(x)=a
1·tanh (W
1x) +a
2·tanh (W
2x),其中W
1和 W
2是權重矩陣,a
1和 a
2是權重向量,並且tanh是生成-1和1之間的值的雙曲正切函數。
在一些實施方式中,FC層554的輸出與softmax層556的softmax啟用一起使用,以計算機率分佈557,機率分佈557表示殘差資料563的可能激勵值的機率。殘差資料563可以被量化(例如,8比特mu律量化)。8比特量化值對應於可能值的計數(例如,28或256個值)。機率分佈557指示與殘差資料563的每個可能值(例如,256個值)相關聯的機率。在一些實施方式中,FC層554的輸出指示與殘差資料563的值的機率分佈557(例如,常態分佈)相對應的平均值和協方差矩陣。在這些實施方式中,殘差資料563的值可以對應於實值(例如,去量化值)。
神經網路562基於機率分佈557執行採樣558以生成殘差資料563。例如,神經網路562基於由機率分佈557指示的機率為殘差資料563選擇具體值。神經網路562向LP模組564提供殘差資料563。
LP模組564基於殘差資料563生成經重構子帶音訊樣本165。例如,LP模組564基於殘差資料563、特徵資料171、預測音訊資料559、先前音訊樣本371、一個或多個經重構子帶音訊樣本565或其組合來生成經重構音訊訊號177的經重構子帶音訊樣本165,如參考圖6進一步描述的。在具體態樣中,預測音訊資料559對應於由LP模組564在先前迭代期間生成的預測音訊資料353的一部分,如參考圖6進一步描述的。
在具體態樣中,子帶網路162表示子帶網路162A、子帶網路162B、子帶網路162C或子帶網路162D中的說明性實施方式。在該態樣中,一個或多個子帶神經網路輸入361表示到所表示的子帶網路的子帶神經網路輸入,並且經重構子帶音訊樣本165表示由所表示的子帶網路輸出的經重構子帶音訊樣本。例如,在具體態樣中,子帶網路162表示子帶網路162A的說明性實施方式。在該態樣中,一個或多個子帶神經網路輸入361表示一個或多個子帶神經網路輸入361A,並且經重構子帶音訊樣本165表示經重構子帶音訊樣本165A。
在具體態樣中,子帶網路162表示子帶網路162B的說明性實施方式。在該態樣中,一個或多個子帶神經網路輸入361表示一個或多個子帶神經網路輸入361B,並且經重構子帶音訊樣本165表示經重構子帶音訊樣本165B。類似地,在具體態樣中,子帶網路162表示子帶網路162C的說明性實施方式。在該態樣中,一個或多個子帶神經網路輸入361表示一個或多個子帶神經網路輸入361C,並且經重構子帶音訊樣本165表示經重構子帶音訊樣本165C。在具體態樣中,子帶網路162表示子帶網路162D的說明性實施方式。在該態樣中,一個或多個子帶神經網路輸入361表示一個或多個子帶神經網路輸入361D,並且經重構子帶音訊樣本165表示經重構子帶音訊樣本165D。
包括LP模組564的每個子帶網路162被提供作為說明性示例。在一些實施方式中,每個子帶網路162(例如,子帶網路162A、子帶網路162B、子帶網路162C、子帶網路162D或其組合)向圖1的重構器166提供殘差資料,重構器166處理殘差資料以生成經重構殘差資料,並向LP模組提供經重構殘差資料。LP模組基於經重構殘差資料生成經重構音訊樣本167。
在具體態樣中,重構器166從子帶網路162A接收第一殘差資料563和從子帶網路162B接收第二殘差資料563,並且處理第一殘差資料和第二殘差資料以生成經重構殘差資料。LP模組基於LPC 141和特徵資料171處理經重構殘差資料以生成經重構音訊樣本167。
在另一具體態樣中,重構器166從子帶網路162A接收第一殘差資料563,從子帶網路162B接收第二殘差資料563,從子帶網路162C接收第三殘差資料563,以及從子帶網路162D接收第四殘差資料563。重構器166處理第一殘差資料、第二殘差資料、第三殘差資料和第四殘差資料以生成經重構殘差資料。LP模組基於LPC 141和特徵資料171處理經重構殘差資料以生成經重構音訊樣本167。
參考圖6,示出了LP模組564的說明性實施方式的圖600。LP模組564包括耦合到短期LP引擎630的長期預測(long-term prediction, LTP)引擎610。LTP引擎610包括LTP濾波器612,短期LP引擎630包括短期LP濾波器632。
在具體態樣中,殘差資料563對應於激勵訊號,預測音訊資料657和預測音訊資料659對應於預測,並且LP模組564被配置為將激勵訊號(例如,殘差資料563)與預測(例如,預測音訊資料657和預測音訊資料659)組合以生成經重構子帶音訊樣本165。例如,LTP引擎610將預測音訊資料657與殘差資料563組合以生成合成殘差資料611(例如,LP殘差資料)。短期LP引擎630將合成殘差資料611與預測音訊資料659組合以生成經重構子帶音訊樣本165。在具體態樣中,圖5的預測音訊資料559包括預測音訊資料657和預測音訊資料659。
在一些實施方式中,LTP引擎610將預測音訊資料657與和另一音訊樣本相關聯的殘差資料組合,以生成合成殘差資料611。例如,LTP引擎610將預測音訊資料657與殘差資料563以及和一個或多個其他子帶音訊樣本相關聯的殘差資料663組合,以生成合成殘差資料611。 在具體實施方式中,殘差資料563由一個子帶網路162的神經網路562生成,並且殘差資料663由另一子帶網路162的神經網路562生成。例如,殘差資料563由子帶網路162A的神經網路562生成,並且殘差資料663包括由子帶網路162B的神經網路562生成的第一殘差資料、由子帶網路162C的神經網路562生成的第二殘差資料、由子帶網路162D的神經網路562生成的第三殘差資料或其組合。
LP模組564被配置為生成用於後續迭代的預測。例如,LTP濾波器612基於合成殘差資料611、基音增益173、基音估計175或其組合來生成下一個預測音訊資料667(例如,下一個長期預測資料)。在具體態樣中,下一個預測音訊資料667被用作後續迭代中的預測音訊資料657。
短期LP濾波器632基於經重構子帶音訊樣本165、LPC 141、先前音訊樣本371、從其他子帶網路的LP模組接收的一個或多個經重構子帶音訊樣本665或其組合來生成下一個預測音訊資料669(例如,下一個短期預測資料)。例如,子帶網路162A的短期LP濾波器632基於經重構子帶音訊樣本165A、LPC 141、先前音訊樣本371或其組合來生成下一個預測音訊資料669(例如,下一個短期預測資料)。在該示例中,短期LP濾波器632不從其他子帶網路的LP模組接收任何經重構子帶音訊樣本665,並且圖5的一個或多個經重構子帶音訊樣本565包括經重構子帶音訊樣本165A。
在另一示例中,子帶網路162B的短期LP濾波器632基於從子帶網路162A接收的經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、LPC 141、先前音訊樣本371或其組合來生成下一個預測音訊資料669(例如,下一個短期預測資料)。在該示例中,一個或多個經重構子帶音訊樣本665包括經重構子帶音訊樣本165A,並且圖5的一個或多個經重構子帶音訊樣本565包括經重構子帶音訊樣本165A、經重構子帶音訊樣本165B或兩者。
作為另一示例,子帶網路162C的短期LP濾波器632基於從子帶網路162A接收的經重構子帶音訊樣本165A、從子帶網路162B接收的經重構子帶音訊樣本165B、經重構子帶音訊樣本165C、LPC 141、先前音訊樣本371或其組合來生成下一個預測音訊資料669(例如,下一個短期預測資料)。在該示例中,一個或多個經重構子帶音訊樣本665包括經重構子帶音訊樣本165A、經重構子帶音訊樣本165B或兩者,並且圖5的一個或多個經重構子帶音訊樣本565包括經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、經重構子帶音訊樣本165C或其組合。
在具體態樣中,下一個預測音訊資料669被用作後續迭代中的預測音訊資料659。在具體態樣中,LP模組564輸出下一個預測音訊資料667、下一個預測音訊資料669或兩者作為用於後續迭代的預測音訊資料353的一部分。
在具體態樣中,LP模組564將經重構子帶音訊樣本165輸出為用於後續迭代的神經網路輸入151中的先前子帶音訊樣本(例如,先前子帶音訊樣本311A、先前子帶音訊樣本311B、在先前迭代期間由子帶網路162C生成的先前子帶音訊樣本或先前子帶音訊樣本311D)。在具體態樣中,LP模組564輸出殘差資料563、合成殘差資料611或兩者,作為用於後續迭代的神經網路輸入151中的附加先前子帶樣本資料。
在一些實施方式中,LPC 141包括與不同音訊子帶相關聯的不同LPC。例如,LPC 141包括與第一音訊子帶相關聯的第一LPC和與第二音訊子帶相關聯的第二LPC,其中第二LPC不同於第一LPC。在這些實施方式中,子帶網路162A的短期LP濾波器632基於LPC 141的第一LPC、經重構子帶音訊樣本165A、先前音訊樣本371或其組合來生成下一個預測音訊資料669(例如,下一個短期預測資料)。子帶網路162B的短期LP濾波器632基於LPC 141的第二LPC、從子帶網路162A接收的經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、先前音訊樣本371或其組合來生成下一個預測音訊資料669(例如,下一個短期預測資料)。
圖600提供了圖5的子帶網路162的LP模組564的實施方式的說明性非限制性示例。在其他示例中,子帶網路162的LP模組564可以具有各種其他實施方式。例如,在具體實施方式中,在由LTP引擎610處理短期LP引擎630的輸出之前,由短期LP引擎630處理殘差資料563。在該實施方式中,LTP引擎610的輸出對應於經重構子帶音訊樣本165。在一些實施方式中,LP模組564包括短期LP引擎630,並且不包括LTP引擎610。例如,殘差資料563被提供給短期LP引擎630,並且短期LP引擎630基於殘差資料563和預測音訊資料659獨立於(例如,不生成)合成殘差資料611來生成經重構子帶音訊樣本165。
參考圖7,示出了對應於經重構子帶音訊樣本165的音訊子帶的說明性示例的圖700。在具體態樣中,經重構子帶音訊樣本165由圖1的樣本生成網路160生成。
在具體態樣中,圖3-4的經重構子帶音訊樣本165A表示音訊子帶711A的音訊。音訊子帶711A包括從頻率715A到頻率715B的頻率的第一範圍(例如,第一頻率範圍),其中頻率715B大於(例如,高於)頻率715A。在具體態樣中,經重構子帶音訊樣本165B表示音訊子帶711B的音訊。音訊子帶711B包括從頻率715C到頻率715D的頻率的第二範圍(例如,第二頻率範圍),其中頻率715D大於(例如,高於)頻率715 C。
在示例702中,音訊子帶711A的第一頻率範圍和音訊子帶711B的第二頻率範圍是非重疊且非連續的。為了說明,頻率715C高於頻率715B。
在示例704中,音訊子帶711A的第一頻率範圍和音訊子帶711B的第二頻率範圍是非重疊且連續的。為了說明,頻率715C等於頻率715B。
在示例706中,音訊子帶711A的第一頻率範圍至少部分地與音訊子帶711B的第二頻率範圍重疊。為了說明,頻率715C大於(例如,高於)頻率715A且小於(例如,低於)頻率715B。
分別表示音訊子帶711A和音訊子帶711B的經重構子帶音訊樣本165A和經重構子帶音訊樣本165B被提供作為說明性示例。在其他示例中,經重構子帶音訊樣本165A和經重構子帶音訊樣本165B可以分別表示音訊子帶711B和音訊子帶711A。
音訊子帶711A的第一頻率範圍具有對應於頻率715A和頻率715B之間的差的第一寬度。音訊子帶711B的第二頻率範圍具有對應於頻率715C和頻率715D之間的差的第二寬度。在一些示例中,音訊子帶711A的第一頻率範圍具有與音訊子帶711B的第二頻率範圍相同的寬度。例如,第一寬度等於第二寬度。為了說明,頻率715A和頻率715B之間的差與頻率715C和頻率715D之間的差相同。
在一些示例中,音訊子帶711A的第一頻率範圍比音訊子帶711B的第二頻率範圍更寬。例如,第一寬度大於第二寬度。為了說明,頻率715A和頻率715B之間的差大於頻率715C和頻率715D之間的差。在一些示例中,音訊子帶711A的第一頻率範圍比音訊子帶711B的第二頻率範圍更窄。例如,第一寬度小於第二寬度。為了說明,頻率715A和頻率715B之間的差小於頻率715C和頻率715D之間的差。在一些示例中,第一寬度大於或等於第二寬度。為了說明,頻率715A和頻率715B之間的差大於或等於頻率715C和頻率715D之間的差。
參考圖8,示出了對應於經重構子帶音訊樣本165的音訊子帶的說明性示例的圖800。在具體態樣中,經重構子帶音訊樣本165由圖1的樣本生成網路160生成。
音訊子帶811A包括從頻率815A到頻率815B的第一頻率範圍,其中頻率815B大於(例如,高於)頻率815A。音訊子帶811B包括從頻率815C到頻率815D的第二頻率範圍,其中頻率815D大於(例如,高於)頻率815C。音訊子帶811C包括從頻率815E到頻率815F的第三頻率範圍,其中頻率815F大於(例如,高於)頻率815E。音訊子帶811D包括從頻率815G到頻率815H的第四頻率範圍,其中頻率815H大於(例如,高於)頻率815G。四個音訊子帶被示出為說明性示例。在其他示例中,音訊頻帶可以被細分為少於四個子帶或多於四個子帶。
在具體態樣中,圖4的經重構子帶音訊樣本165A表示音訊子帶811A,經重構子帶音訊樣本165B表示音訊子帶811B,經重構子帶音訊樣本165C表示音訊子帶811C,經重構子帶音訊樣本165D表示音訊子帶811D。表示音訊子帶811A的經重構子帶音訊樣本165A、表示音訊子帶811B的經重構子帶音訊樣本165B、表示音訊子帶811C的經重構子帶音訊樣本165C、以及表示音訊子帶811D的經重構子帶音訊樣本165D被提供作為說明性示例。在其他示例中,經重構子帶音訊樣本165A、經重構子帶音訊樣本165B、經重構子帶音訊樣本165C或經重構子帶音訊樣本165D中的任何一個可以表示音訊子帶811A、音訊子帶811B、音訊子帶811C或音訊子帶811D中的任何一個的音訊。
在示例802中,音訊子帶811A的第一頻率範圍、音訊子帶811B的第二頻率範圍、音訊子帶811C的第三頻率範圍以及音訊子帶811D的第四頻率範圍是非重疊且非連續的。為了說明,頻率815C大於(例如,高於)頻率815B,頻率815E大於(例如,高於)頻率815D,並且頻率815G大於(例如,高於)頻率815F。
在示例804中,音訊子帶811A的第一頻率範圍、音訊子帶811B的第二頻率範圍、音訊子帶811C的第三頻率範圍以及音訊子帶811D的第四頻率範圍是非重疊且連續的。為了說明,頻率815C等於頻率815D,頻率815E等於頻率815D,頻率815G等於頻率815F。
在示例806中,音訊子帶811A的第一頻率範圍至少部分地與音訊子帶811B的第二頻率範圍重疊,第二頻率範圍至少部分地與音訊子帶811C的第三頻率範圍重疊,以及第三頻率範圍至少部分地與音訊子帶811D的第四頻率範圍重疊。為了說明,頻率815C大於(例如,高於)頻率815A且小於(例如,低於)頻率815B,頻率815E大於(例如,高於)頻率815C且小於(例如,低於)頻率815D,以及頻率815G大於(例如,高於)頻率815E且小於(例如,低於)頻率815F。
在一些示例中,音訊子帶811A的第一頻率範圍、音訊子帶811B的第二頻率範圍、音訊子帶811C的第三頻率範圍和音訊子帶811D的第四頻率範圍中的每一個具有相同的寬度。在其他示例中,第一頻率範圍、第二頻率範圍、第三頻率範圍或第四頻率範圍中的至少一個比第一頻率範圍、第二頻率範圍、第三頻率範圍或第四頻率範圍中的至少另一個更寬。
參考圖9,示出了對應於經重構子帶音訊樣本165的音訊子帶的說明性示例的圖900。在具體態樣中,經重構子帶音訊樣本165由圖1的樣本生成網路160生成。音訊頻帶可以被劃分為非重疊、非連續、連續或部分重疊頻率範圍的組合的子帶。
在示例902中,音訊子帶811A的第一頻率範圍、音訊子帶811B的第二頻率範圍、音訊子帶811C的第三頻率範圍以及音訊子帶811D的第四頻率範圍是非重疊的。音訊子帶811A的第一頻率範圍、音訊子帶811B的第二頻率範圍和音訊子帶811C的第三頻率範圍是非連續的。為了說明,頻率815C大於(例如,高於)頻率815B,並且頻率815 E大於(例如,高於)頻率815D。音訊子帶811C的第三頻率範圍和音訊子帶811D的第四頻率範圍是連續的。例如,頻率815G等於頻率815F。
在示例904中,音訊子帶811A的第一頻率範圍、音訊子帶811B的第二頻率範圍、音訊子帶811C的第三頻率範圍以及音訊子帶811D的第四頻率範圍是非重疊的。音訊子帶811A的第一頻率範圍與音訊子帶811B的第二頻率範圍連續,第二頻率範圍與音訊子帶811C的第三頻率範圍連續。為了說明,頻率815C等於頻率815B,頻率815E等於頻率815D。音訊子帶811C的第三頻率範圍和音訊子帶811D的第四頻率範圍是非連續的。例如,頻率815G大於(例如,高於)頻率815F。
在示例906中,音訊子帶811A的第一頻率範圍至少部分地與音訊子帶811B的第二頻率範圍重疊。為了說明,頻率815C大於(例如,高於)頻率815A且小於(例如,低於)頻率815B。音訊子帶811B的第二頻率範圍、音訊子帶811C的第三頻率範圍和音訊子帶811D的第四頻率範圍是非重疊和非連續的。為了說明,頻率815E大於(例如,高於)頻率815D,並且頻率815G大於(例如,高於)頻率815F。
圖900提供了具有非重疊、非連續、連續或部分重疊頻率範圍的子帶組合的一些說明性非限制性示例。音訊頻帶可以包括具有非重疊、非連續、連續或部分重疊頻率範圍的子帶的各種其他組合。
圖10將設備102的實施方式1000描繪為包括一個或多個處理器190的積體電路1002。一個或多個處理器190包括樣本生成網路160。積體電路1002還包括訊號輸入1004,諸如一個或多個匯流排介面,以使輸入資料1051能夠被接收用於處理。例如,輸入資料1051包括一個或多個神經網路輸入151的至少一部分、基音增益173、基音估計175、LPC 141、圖1的特徵資料171、經編碼音訊資料241、特徵243、特徵253、圖2的調節向量251或其組合。積體電路1002還包括訊號輸出1006,諸如匯流排介面,以使得能夠發送輸出訊號,諸如經重構音訊樣本167、經重構音訊訊號177或其組合。積體電路1002使得能夠實施使用神經網路和多個子帶網路作為系統(諸如圖11中所描繪的行動電話或平板電腦,圖12中所描繪的耳機,圖13中所描繪的可穿戴電子設備,圖14中所描繪的語音控制揚聲器系統,圖15中所描繪的相機,圖16中所描繪的虛擬實境耳機、混合實境耳機或增強實境耳機或圖17或圖18中所描繪的交通工具)中的組件來執行音訊樣本重構。
圖11描繪了實施方式1100,其中作為說明性非限制性示例,設備102包括行動設備1102,諸如電話或平板電腦。行動設備1102包括顯示螢幕1104。包括樣本生成網路160的一個或多個處理器190的組件被整合在行動設備1102中,並且使用虛線來圖示,以指示行動設備1102的用戶通常不可見的內部組件。在具體示例中,樣本生成網路160操作以執行音訊樣本重構以生成經重構音訊樣本167(例如,經重構音訊訊號177),其隨後被處理以在行動設備1102處執行一個或多個操作,諸如啟動圖形用戶界面或以其他方式在顯示螢幕1104處顯示與在經重構音訊訊號177中檢測到的話音相關聯的其他資訊(例如,經由整合“智慧助手”應用)。
圖12描繪了實施方式1200,其中設備102包括耳機設備1202。包括樣本生成網路160的一個或多個處理器190的組件被整合在耳機設備1202中。在具體示例中,樣本生成網路160操作以生成經重構音訊樣本167(例如,經重構音訊訊號177),其可使耳機設備1202經由一個或多個揚聲器136輸出經重構音訊訊號177,以在耳機設備1202處執行一個或多個操作,以將對應於在經重構音訊訊號177中檢測到的語音活動的音訊資料發送到第二設備(未示出),以供進一步處理,或其組合。
圖13描繪了實施方式1300,其中設備102包括可穿戴電子設備1302,被圖示為“智慧手錶”。樣本生成網路160被整合到可穿戴電子設備1302中。在具體示例中,樣本生成網路160操作以生成經重構音訊樣本167(例如,經重構音訊訊號177)。在一些實施方式中,可穿戴電子設備1302經由一個或多個揚聲器136輸出經重構音訊訊號177。在一些實施方式中,經重構音訊樣本167被處理以在可穿戴電子設備1302處執行一個或多個操作,諸如啟動圖形用戶界面或以其他方式在可穿戴電子設備1302的顯示螢幕1304處顯示與經重構音訊訊號177中檢測到的音訊相關聯的其他資訊(例如,歌曲標題、藝術家姓名等)。為了說明,可穿戴電子設備1302可以包括顯示螢幕,其被配置為基於可穿戴電子設備1302檢測到的音訊來顯示通知。在具體示例中,可穿戴電子設備1302包括響應於音訊的檢測而提供觸覺通知(例如振動)的觸覺設備。例如,觸覺通知可以使用戶觀看可穿戴電子設備1302以看到指示與音訊相關聯的資訊(例如,歌曲標題、藝術家姓名等)的顯示通知。
圖14是實施方式1400,其中設備102包括無線揚聲器和語音啟用設備1402。無線揚聲器和語音啟用設備1402可以具有無線網路連接性,並且被配置為執行輔助操作。包括樣本生成網路160的一個或多個處理器190被包括在無線揚聲器和語音啟用設備1402中。無線揚聲器和語音啟用設備1402還包括一個或多個揚聲器136。在操作期間,無線揚聲器和語音啟用設備1402經由一個或多個揚聲器136輸出經由樣本生成網路160的操作生成的經重構音訊訊號177。在一些實施方式中,響應於被識別為經重構音訊訊號177中的用戶話音的口頭命令,無線揚聲器和語音啟用設備1402可以執行輔助操作,諸如經由執行整合輔助應用。輔助操作可以包括調節溫度、播放音樂、打開燈等。例如,響應於檢測到關鍵字或關鍵短語(例如,“你好助手”)之後的命令來執行輔助操作。
圖15描繪了實施方式1500,其中設備102包括對應於相機設備1502的便攜式電子設備。樣本生成網路160被包括在相機設備1502中。在操作期間,相機設備1502經由一個或多個揚聲器136輸出經由樣本生成網路160的操作生成的經重構音訊訊號177。在一些實施方式中,作為說明性示例,響應於檢測到在經重構音訊訊號177中識別的口頭命令,相機設備1502可以響應於口頭命令執行操作,諸如調整圖像或視訊捕獲設置、圖像或視訊回放設置或者圖像或視訊捕獲指令。
圖16描繪了實施方式1600,其中設備102包括對應於虛擬實境耳機、混合實境耳機或增強實境耳機1602的便攜式電子設備。樣本生成網路160被整合到耳機1602中。在具體態樣中,耳機1602經由一個或多個揚聲器136輸出經由樣本生成網路160的操作生成的經重構音訊訊號177。在一些實施方式中,可以基於經重構音訊訊號177來執行語音活動檢測。視覺界面設備定位在用戶的眼睛的前面,以使得能夠在佩戴耳機1602的同時向用戶顯示增強實境圖像或場景、混合實境圖像或場景或者虛擬實境圖像或場景。在具體示例中,視覺界面設備被配置為顯示指示在經重構音訊訊號177中檢測到的音訊的通知。
圖17描繪了實施方式1700,其中設備102對應於交通工具1702或被整合在交通工具1702內,交通工具1702被圖示為有人駕駛或無人駕駛的空中設備(例如,包裹遞送無人機)。樣本生成網路160被整合到交通工具1702中。交通工具1702經由一個或多個揚聲器136輸出經由樣本生成網路160的操作生成的經重構音訊訊號177,諸如用於包裹接收者的組裝指令或安裝指令。
圖18描繪了另一實施方式1800,其中裝置102對應於交通工具1802或被整合在交通工具1802內,交通工具1802被圖示為汽車。交通工具1802包括一個或多個處理器190,該一個或多個處理器190包括樣本生成網路160。可以基於經由樣本生成網路160的操作生成的經重構音訊訊號177來執行話音識別。在具體實施方式中,交通工具1802經由一個或多個揚聲器136輸出經由樣本生成網路160的操作生成的經重構音訊訊號177。例如,經重構音訊訊號177對應於在與另一設備的電話呼叫期間接收的音訊訊號。在另一示例中,經重構音訊訊號177對應於由交通工具1802的娛樂系統輸出的音訊訊號。在一些示例中,交通工具1802經由顯示器1820提供與經重構音訊訊號177相關聯的資訊(例如,呼叫者標識、歌曲標題等)。
參考圖19,示出了使用神經網路和多個子帶網路執行音訊樣本重構的方法1900的具體實施方式。在具體態樣中,方法1900的一個或多個操作由神經網路170、子帶網路162、重構器166、樣本生成網路160、音訊合成器150、一個或多個處理器190、設備102、圖1的系統100、圖2的系統200或其組合中的至少一個來執行。
方法1900包括在1902處使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出,該一個或多個神經網路輸入包括至少一個先前音訊樣本。例如,如參考圖1所描述的,樣本生成網路160使用神經網路170來處理基於一個或多個神經網路輸入151的嵌入155,以生成神經網路輸出161。如參考圖3所描述的,一個或多個神經網路輸入151至少包括先前子帶音訊樣本311A、先前子帶音訊樣本311B、先前音訊樣本371或其組合。
方法1900還包括在1904處使用第一子帶神經網路處理一個或多個第一子帶網路輸入,以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本。例如,如參考圖3所描述的,樣本生成網路160使用子帶網路162A來處理一個或多個子帶神經網路輸入361A,以生成第一經重構子帶音訊訊號的至少經重構子帶音訊樣本165A。在具體態樣中,一個或多個子帶神經網路輸入361A包括先前音訊樣本371、先前子帶音訊樣本311A、先前子帶音訊樣本311B、神經網路輸出161或其組合。
方法1900還包括在1906處使用第二子帶神經網路處理一個或多個第二子帶網路輸入,以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本。例如,如參考圖3所描述的,樣本生成網路160使用子帶網路162B來處理一個或多個子帶神經網路輸入361B以生成第二經重構子帶音訊訊號的至少經重構子帶音訊樣本165B。在具體態樣中,一個或多個子帶神經網路輸入361B包括先前子帶音訊樣本311B、先前音訊樣本371、經重構子帶音訊樣本165A、先前子帶音訊樣本311A、神經網路輸出161或其組合。
方法1900還包括在1908處使用重構器基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本。例如,如參考圖3所描述的,樣本生成網路160使用重構器166基於經重構子帶音訊樣本165A和經重構子帶音訊樣本165B來生成經重構音訊訊號177的經重構音訊幀153A的至少經重構音訊樣本167。
因此,方法1900使得能夠使用神經網路170、子帶網路162(例如,子帶網路162A和子帶網路162B)和重構器166來生成經重構音訊樣本167。使用神經網路170作為神經網路處理的初始階段降低了複雜性,從而減少了處理時間、記憶體使用或兩者。具有分離的子帶網路考慮了音訊子帶之間的任何依賴性,以便處理跨頻帶的調節。
圖19的方法1900可以由現場可程式化閘陣列(field-programmable gate array, FPGA)設備、特殊應用積體電路(application-specific integrated circuit, ASIC)、諸如中央處理單元(central processing unit, CPU)的處理單元、DSP、圖形處理單元(graphics processing unit, GPU)、控制器、另一硬體設備、韌體設備或其任何組合來實施。作為示例,圖19的方法1900可以由執行指令的處理器來執行,諸如參考圖20所描述的。
參考圖20,描繪了設備的具體說明性實施方式的方塊圖,且將該設備大體上指定為2000。在各種實施方式中,設備2000可以具有比圖20中所圖示的更多或更少的組件。在說明性實施方式中,設備2000可以對應於設備102。在說明性實施方式中,設備2000可以執行參考圖1-19描述的一個或多個操作。
在具體實施方式中,設備2000包括處理器2006(例如,CPU)。設備2000可以包括一個或多個附加處理器2010(例如,一個或多個DSP、一個或多個GPU或其組合)。在具體態樣中,圖1的一個或多個處理器190對應於處理器2006、處理器2010或其組合。處理器2010可以包括話音和音樂編解碼器-解碼器(coder-decoder, CODEC)2008,其包括語音編解碼器(“vocoder, 聲碼器”)編碼器2036、聲碼器解碼器2038或其組合。在具體態樣中,處理器2010可以包括樣本生成網路160。在具體態樣中,聲碼器編碼器2036可以包括編碼器204。在具體態樣中,聲碼器解碼器2038可以包括FRAE解碼器140。
設備2000可以包括記憶體2086和編解碼器2034。記憶體2086可以包括指令2056,指令2056可由一個或多個附加處理器2010(或處理器2006)執行以實施參考樣本生成網路160描述的功能。設備2000可以包括經由收發器2050耦合到天線2052的數據機2048。在具體態樣中,數據機2048可以對應於圖2的數據機206、數據機240或兩者。在具體態樣中,收發器2050可以包括圖2的發送器208、接收器238或兩者。
設備2000可以包括耦合到顯示器控制器2026的顯示器2028。一個或多個揚聲器136、一個或多個麥克風2090或其組合可以耦合到編解碼器2034。編解碼器2034可以包括數位類比轉換器(digital-to-analog converter, DAC)2002、類比數位轉換器(analog-to-digital converter, ADC)2004或兩者。在具體實施方式中,編解碼器2034可以從一個或多個麥克風2090接收類比訊號,使用類比數位轉換器2004將類比訊號轉換為數位訊號,並將數位訊號提供給話音和音樂編解碼器2008。在具體實施方式中,話音和音樂編解碼器2008可以向編解碼器2034提供數位訊號。例如,話音和音樂編解碼器2008可以向編解碼器2034提供由樣本生成網路160生成的經重構音訊訊號177。編解碼器2034可以使用數位類比轉換器2002將數位訊號轉換成類比訊號,並且可以將類比訊號提供給一個或多個揚聲器136。
在具體實施方式中,設備2000可以被包括在封裝系統或單晶片系統設備2022中。在具體實施方式中,記憶體2086、處理器2006、處理器2010、顯示器控制器2026、編解碼器2034和數據機2048被包括在封裝系統或單晶片系統設備2022中。在具體實施方式中,輸入設備2030和電源2044耦合到封裝系統或單晶片系統設備2022。此外,在具體實施方式中,如圖20中圖示的,顯示器2028、輸入設備2030、一個或多個揚聲器136、一個或多個麥克風2090、天線2052和電源2044在封裝系統或單晶片系統設備2022的外部。在具體實施方式中,顯示器2028、輸入設備2030、一個或多個揚聲器136、一個或多個麥克風2090、天線2052和電源2044中的每一個可以耦合到封裝系統或單晶片系統設備2022(諸如介面或控制器)的組件。
設備2000可以包括智慧揚聲器、揚聲器條、行動通訊設備、智慧電話、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、顯示設備、電視、遊戲控制台、音樂播放器、收音機、數位視訊播放器、數位視訊光碟(digital video disc, DVD)播放器、調諧器、相機、導航設備、交通工具、耳機、增強實境耳機、混合實境耳機、虛擬實境耳機、飛行器、家庭自動化系統、語音啟用設備、無線揚聲器和語音啟用設備、便攜式電子設備、汽車、計算設備、通訊設備、物聯網(internet-of-things, IoT)設備、虛擬實境(virtual reality, VR)設備、基站、行動設備或其任意組合。
結合所描述的實施方式,裝置包括用於使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出的部件,該一個或多個神經網路輸入包括至少一個先前音訊樣本。例如,用於處理一個或多個神經網路輸入的部件可以對應於神經網路170、樣本生成網路160、音訊合成器150、一個或多個處理器190、設備102、圖1的系統100、圖2的系統200、處理器2006、一個或多個處理器2010、被配置為處理一個或多個神經網路輸入以生成神經網路輸出的一個或多個其他電路或組件或者其任何組合。在具體態樣中,至少一個先前音訊樣本包括先前子帶音訊樣本311A、先前子帶音訊樣本311B、先前音訊樣本371或其組合。
裝置還包括用於使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本的部件。例如,用於處理一個或多個第一子帶網路輸入的部件可以對應於子帶網路162A、子帶網路162、神經網路170、樣本生成網路160、音訊合成器150、一個或多個處理器190、設備102、圖1的系統100、圖2的系統200、處理器2006、一個或多個處理器2010、被配置為使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成至少一個第一子帶音訊樣本的一個或多個其他電路或組件或者其任何組合。
在具體態樣中,一個或多個第一子帶網路輸入對應於一個或多個子帶神經網路輸入361A。一個或多個子帶神經網路輸入361A包括先前音訊樣本371、先前子帶音訊樣本311A、先前子帶音訊樣本311B、神經網路輸出161或其組合。在具體態樣中,第一經重構子帶音訊訊號對應於音訊子帶711A。
裝置還包括用於使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本的部件。例如,用於處理一個或多個第二子帶網路輸入的部件可以對應於子帶網路162B、子帶網路162、神經網路170、樣本生成網路160、音訊合成器150、一個或多個處理器190、設備102、圖1的系統100、圖2的系統200、處理器2006、一個或多個處理器2010、被配置為使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成至少一個第二子帶音訊樣本的一個或多個其他電路或組件或者其任何組合。
在具體態樣中,一個或多個第二子帶網路輸入對應於一個或多個子帶神經網路輸入361B。一個或多個子帶神經網路輸入361B包括先前子帶音訊樣本311B、先前音訊樣本371、經重構子帶音訊樣本165A、先前子帶音訊樣本311A、神經網路輸出161或其組合。在具體態樣中,第二經重構子帶音訊訊號對應於音訊子帶711B。
裝置還包括用於基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本的部件。例如,用於生成至少一個經重構音訊樣本的部件可以對應於重構器166、神經網路170、樣本生成網路160、音訊合成器150、一個或多個處理器190、設備102、圖1的系統100、圖2的系統200、處理器2006、一個或多個處理器2010、被配置為基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成至少一個經重構音訊樣本的一個或多個其他電路或組件或者其任何組合。
在一些實施方式中,一種非暫時性電腦可讀媒體(例如,電腦可讀儲存設備,諸如記憶體2086)包括指令(例如,指令2056),當由一個或多個處理器(例如,一個或多個處理器2010或處理器2006)執行時,使得一個或多個處理器使用神經網路(例如,神經網路170)處理一個或多個神經網路輸入(例如,由嵌入155表示的一個或多個神經網路輸入151)以生成神經網路輸出(例如,神經網路輸出161),一個或多個神經網路輸入包括至少一個先前音訊樣本(例如,先前子帶音訊樣本311A、先前子帶音訊樣本311B、先前音訊樣本371或其組合)。
當由一個或多個處理器執行時,指令還使得一個或多個處理器使用第一子帶神經網路(例如,子帶網路162A)來處理一個或多個第一子帶網路輸入(例如,一個或多個子帶神經網路輸入361A)以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本(例如,經重構子帶音訊樣本165A)。一個或多個第一子帶網路輸入至少包括神經網路輸出。第一經重構子帶音訊訊號對應於第一音訊子帶(例如,音訊子帶711A)。當由一個或多個處理器執行時,指令還使得一個或多個處理器使用第二子帶神經網路(例如,子帶網路162B)來處理一個或多個第二子帶網路輸入(例如,一個或多個子帶神經網路輸入361B)以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本(例如,經重構子帶音訊樣本165B)。一個或多個第二子帶網路輸入至少包括神經網路輸出。第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶(例如,711B)。
當由一個或多個處理器執行時,指令還使得一個或多個處理器基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號(例如,經重構音訊訊號177)的音訊幀(例如,經重構音訊幀153A)的至少一個經重構音訊樣本(例如,經重構音訊樣本167)。
至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本(例如,先前子帶音訊樣本311A)、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本(例如,先前子帶音訊樣本311B)、經重構音訊訊號的至少一個先前經重構音訊樣本(例如,先前音訊樣本371)或其組合。
下面在相互相關的示例中描述了本揭露的具體態樣:
根據示例1,一種設備包括:神經網路,該神經網路被配置為處理一個或多個神經網路輸入以生成神經網路輸出,該一個或多個神經網路輸入包括至少一個先前音訊樣本;第一子帶神經網路,該第一子帶神經網路被配置為處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本,該一個或多個第一子帶網路輸入至少包括神經網路輸出,其中第一經重構子帶音訊訊號對應於第一音訊子帶;第二子帶神經網路,該第二子帶神經網路被配置為處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本,該一個或多個第二子帶網路輸入至少包括神經網路輸出,其中第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶;以及重構器,該重構器被配置為基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本,其中至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
示例2包括示例1的設備,其中重構器被配置為根據神經網路的推斷生成經重構音訊訊號的多個經重構音訊樣本,其中第一子帶神經網路以經重構音訊訊號的採樣率進行操作,並且其中第二子帶神經網路以經重構音訊訊號的採樣率進行操作。
示例3包括示例1或示例2的設備,其中到第一子帶神經網路的一個或多個第一子帶網路輸入還包括至少一個先前第一子帶音訊樣本、至少一個先前第二子帶音訊樣本、至少一個先前經重構音訊樣本或其組合,並且其中到第二子帶神經網路的一個或多個第二子帶網路輸入還包括至少一個第一子帶音訊樣本、至少一個先前第二子帶音訊樣本、至少一個先前經重構音訊樣本、至少一個先前第一子帶音訊樣本或其組合。
示例4包括示例1至示例3中任何一項的設備,還包括被配置為生成一個或多個附加子帶音訊訊號的至少一個附加子帶音訊樣本的一個或多個附加子帶神經網路,其中至少一個經重構音訊樣本還基於該至少一個附加子帶音訊樣本。
示例5包括示例1至示例4中任何一項的設備,還包括:第三子帶神經網路,該第三子帶神經網路被配置為處理一個或多個第三子帶網路輸入以生成第三經重構子帶音訊訊號的至少一個第三子帶音訊樣本;以及第四子帶神經網路,該第四子帶神經網路被配置為處理一個或多個第四子帶網路輸入以生成第四經重構子帶音訊訊號的至少一個第四子帶音訊樣本,其中至少一個經重構音訊樣本還基於至少一個第三子帶音訊樣本、至少一個第四子帶音訊樣本或其組合。
示例6包括示例5的設備,其中到第三子帶神經網路的一個或多個第三子帶網路輸入包括至少一個第二子帶音訊樣本和神經網路輸出,並且其中到第四子帶神經網路的一個或多個第四子帶網路輸入包括至少一個第三子帶音訊樣本和神經網路輸出。
示例7包括示例5或示例6的設備,其中第三經重構子帶音訊訊號對應於第三音訊子帶,並且第四經重構子帶音訊訊號對應於第四音訊子帶,其中第三音訊子帶不同於第一音訊子帶和第二音訊子帶,並且其中第四音訊子帶不同於第一音訊子帶、第二音訊子帶和第三音訊子帶。
示例8包括示例1至示例7中任何一項的設備,其中第一特定音訊子帶對應於第一頻率範圍,其中第二特定音訊子帶對應於第二頻率範圍,並且其中第一特定音訊子帶包括第一音訊子帶、第二音訊子帶、第三音訊子帶或第四音訊子帶中的一個,並且其中第二特定音訊子帶包括第一音訊子帶、第二音訊子帶、第三音訊子帶或第四音訊子帶中的另一個。
示例9包括示例8的設備,其中第一頻率範圍具有大於或等於第二頻率範圍的第二寬度的第一寬度。
示例10包括示例8或示例9的設備,其中第一頻率範圍至少部分地與第二頻率範圍重疊。
示例11包括示例8或示例9的設備,其中第一頻率範圍與第二頻率範圍鄰接。
示例12包括示例1至示例11中任何一項的設備,其中神經網路的循環層包括閘控循環單元(GRU)。
示例13包括示例1至示例12中任何一項的設備,其中一個或多個神經網路輸入還包括預測音訊資料。
示例14包括示例13的設備,其中預測音訊資料包括長期預測(LTP)資料、線性預測(LP)資料或其組合。
示例15包括示例1至示例14中任何一項的設備,其中一個或多個神經網路輸入還包括至少一個子帶音訊樣本的線性預測(LP)預測、至少一個先前子帶音訊樣本的LP殘差、至少一個先前子帶音訊樣本、至少一個先前經重構音訊樣本或其組合。
示例16包括示例1至示例15中任何一項的設備,其中第一子帶神經網路包括第一神經網路,其被配置為處理一個或多個第一子帶網路輸入以生成第一殘差資料。
示例17包括示例16的設備,其中第一子帶神經網路還包括第一線性預測(LP)濾波器,該第一線性預測濾波器被配置為基於線性預測係數(LPC)來處理第一殘差資料以生成至少一個子帶音訊樣本。
示例18包括示例17的設備,其中第一LP濾波器包括長期預測(LTP)濾波器、短期LP濾波器或兩者。
示例19包括示例17或示例18的設備,還包括:數據機,該數據機被配置為從第二設備接收經編碼音訊資料;以及解碼器,該解碼器被配置為:解碼經編碼音訊資料以生成音訊幀的特徵資料;並基於特徵資料估計LPC。
示例20包括示例17或示例18的設備,還包括:數據機,該數據機被配置為從第二設備接收經編碼音訊資料;以及解碼器,該解碼器被配置為解碼經編碼音訊資料以生成LPC。
示例21包括示例1至示例20中任何一項的設備,其中一個或多個第二子帶網路輸入還包括至少一個子帶音訊樣本的線性預測(LP)預測、至少一個先前子帶音訊樣本的LP殘差、至少一個先前子帶音訊樣本、至少一個先前經重構音訊樣本、至少一個第一子帶音訊樣本的LP殘差、至少一個第一子帶音訊樣本或其組合。
示例22包括示例1至示例21中任何一項的設備,其中一個或多個第一子帶網路輸入還包括至少一個子帶音訊樣本的線性預測(LP)預測、至少一個先前子帶音訊樣本的LP殘差、至少一個先前子帶音訊樣本、至少一個先前經重構音訊樣本或其組合。
示例23包括示例1至示例22中任何一項的設備,其中重構器還被配置為向揚聲器提供音訊幀。
示例24包括示例1至示例23中任何一項的設備,其中重構器包括子帶重構濾波器組。
示例25包括示例1至示例24中任何一項的設備,其中至少一個經重構音訊樣本包括多個音訊樣本。
示例26包括示例1至示例25中任何一項的設備,其中經重構音訊訊號包括經重構話音訊號。
根據示例27,一種方法包括:使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出,該一個或多個神經網路輸入包括至少一個先前音訊樣本;使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本,一個或多個第一子帶網路輸入至少包括神經網路輸出,其中第一經重構子帶音訊訊號對應於第一音訊子帶;使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本,一個或多個第二子帶網路輸入至少包括神經網路輸出,其中第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶;以及使用重構器基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本,其中至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
示例28包括示例27的方法,還包括使用重構器根據神經網路的推斷生成經重構音訊訊號的多個經重構音訊樣本,其中第一子帶神經網路以經重構音訊訊號的採樣率進行操作,並且其中第二子帶神經網路以經重構音訊訊號的採樣率進行操作。
示例29包括示例27或示例28的方法,其中到第一子帶神經網路的一個或多個第一子帶網路輸入還包括至少一個先前第一子帶音訊樣本、至少一個先前第二子帶音訊樣本、至少一個先前經重構音訊樣本或其組合。
示例30包括示例27至示例29中任何一項的方法,其中到第二子帶神經網路的一個或多個第二子帶網路輸入還包括至少一個第一子帶音訊樣本、至少一個先前第二子帶音訊樣本、至少一個先前經重構音訊樣本、至少一個先前第一子帶音訊樣本或其組合。
示例31包括示例26至示例30中任何一項的方法,還包括使用一個或多個附加子帶神經網路生成一個或多個附加子帶音訊訊號的至少一個附加子帶音訊樣本,其中至少一個經重構音訊樣本還基於至少一個附加子帶音訊樣本。
示例32包括示例27至示例31中任何一項的方法,還包括:使用第三子帶神經網路處理一個或多個第三子帶網路輸入以生成第三經重構子帶音訊訊號的至少一個第三子帶音訊樣本;以及使用第四子帶神經網路處理一個或多個第四子帶網路輸入以生成第四經重構子帶音訊訊號的至少一個第四子帶音訊樣本,其中至少一個經重構音訊樣本還基於至少一個第三子帶音訊樣本、至少一個第四子帶音訊樣本或其組合。
示例33包括示例32的方法,其中到第三子帶神經網路的一個或多個第三子帶網路輸入包括至少一個第二子帶音訊樣本和神經網路輸出,並且其中到第四子帶神經網路的一個或多個第四子帶網路輸入包括至少一個第三子帶音訊樣本和神經網路輸出。
示例34包括示例32或示例33的方法,其中第三經重構子帶音訊訊號對應於第三音訊子帶,並且第四經重構子帶音訊訊號對應於第四音訊子帶,其中第三音訊子帶不同於第一音訊子帶和第二音訊子帶,並且其中第四音訊子帶不同於第一音訊子帶、第二音訊子帶和第三音訊子帶。
示例35包括示例27至示例34中任何一項的方法,其中第一特定音訊子帶對應於第一頻率範圍,其中第二特定音訊子帶對應於第二頻率範圍,並且其中第一特定音訊子帶包括第一音訊子帶、第二音訊子帶、第三音訊子帶或第四音訊子帶中的一個,並且其中第二特定音訊子帶包括第一音訊子帶、第二音訊子帶、第三音訊子帶或第四音訊子帶中的另一個。
示例36包括示例35的方法,其中第一頻率範圍具有大於或等於第二頻率範圍的第二寬度的第一寬度。
示例37包括示例35或示例36的方法,其中第一頻率範圍至少部分地與第二頻率範圍重疊。
示例38包括示例35或示例36的方法,其中第一頻率範圍與第二頻率範圍鄰接。
示例39包括示例27至示例38中任何一項的方法,其中神經網路的循環層包括閘控循環單元(GRU)。
示例40包括示例27至示例39中任何一項的方法,其中一個或多個神經網路輸入還包括預測音訊資料。
示例41包括示例40的方法,其中預測音訊資料包括長期預測(LTP)資料、線性預測(LP)資料或其組合。
示例42包括示例27至示例41中任何一項的方法,其中一個或多個神經網路輸入還包括至少一個子帶音訊樣本的線性預測(LP)預測、至少一個先前子帶音訊樣本的LP殘差、至少一個先前子帶音訊樣本、至少一個先前經重構音訊樣本或其組合。
示例43包括示例27至示例42中任何一項的方法,其中第一子帶神經網路包括第一神經網路,其被配置為處理一個或多個第一子帶網路輸入以生成第一殘差資料。
示例44包括示例43的方法,其中第一子帶神經網路還包括第一線性預測(LP)濾波器,該第一線性預測濾波器被配置為基於線性預測係數(LPC)來處理第一殘差資料以生成至少一個子帶音訊樣本。
示例45包括示例44的方法,其中第一LP濾波器包括長期預測(LTP)濾波器、短期LP濾波器或兩者。
示例46包括示例44或示例45的方法,還包括:經由數據機從第二設備接收經編碼音訊資料;解碼經編碼音訊資料以生成音訊幀的特徵資料;以及基於特徵資料估計LPC。
示例47包括示例44或示例45的方法,還包括:經由數據機從第二設備接收經編碼音訊資料;以及解碼經編碼音訊資料以生成LPC。
示例48包括示例27至示例47中任何一項的方法,其中一個或多個第二子帶網路輸入還包括至少一個子帶音訊樣本的線性預測(LP)預測、至少一個先前子帶音訊樣本的LP殘差、至少一個先前子帶音訊樣本、至少一個先前經重構音訊樣本、至少一個第一子帶音訊樣本的LP殘差、至少一個第一子帶音訊樣本或其組合。
示例49包括示例27至示例48中任何一項的方法,其中一個或多個第一子帶網路輸入還包括至少一個子帶音訊樣本的線性預測(LP)預測、至少一個先前子帶音訊樣本的LP殘差、至少一個先前子帶音訊樣本、至少一個先前經重構音訊樣本或其組合。
示例50包括示例27至示例49中任何一項的方法,其中重構器還被配置為向揚聲器提供音訊幀。
示例51包括示例27至示例50中任何一項的方法,其中重構器包括子帶重構濾波器組。
示例52包括示例27至示例51中任何一項的方法,其中至少一個經重構音訊樣本包括多個音訊樣本。
示例53包括示例27至示例52中任何一項的方法,其中經重構音訊訊號包括經重構話音訊號。
根據示例54,一種設備包括:記憶體,該記憶體被配置為儲存指令;以及處理器,該處理器被配置為執行指令以執行示例27至示例53中任何一項的方法。
根據實施例55,一種非暫時性電腦可讀媒體儲存指令,當由處理器執行時,該指令使得處理器執行示例27至示例53中任何一項的方法。
根據實施例56,一種電腦程序產品包括電腦程序指令,當由處理器執行時,該電腦程序指令使得處理器執行示例27至示例53中任何一項的方法。
根據實施例57,一種裝置包括用於執行示例27至示例53中任何一項的方法的部件。
根據示例58,一種非暫時性電腦可讀媒體儲存指令,當由一個或多個處理器執行時,該指令使得一個或多個處理器:使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出,一個或多個神經網路輸入包括至少一個先前音訊樣本;使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本;使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本;以及基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本,其中至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合,並且其中到第二子帶神經網路的一個或多個第二子帶網路輸入包括至少一個先前第二子帶音訊樣本、至少一個先前經重構音訊樣本、至少一個第一子帶音訊樣本、至少一個先前第一子帶音訊樣本、神經網路輸出或其組合。
根據示例59,一種非暫時性電腦可讀媒體儲存指令,當由一個或多個處理器執行時,該指令使得一個或多個處理器:使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出,一個或多個神經網路輸入包括至少一個先前的音訊樣本;使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本,一個或多個第一子帶網路輸入至少包括神經網路輸出,其中第一經重構子帶音訊訊號對應於第一音訊子帶;使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本,一個或多個第二子帶網路輸入至少包括神經網路輸出,其中第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶;以及基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本,其中至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
示例60包括示例58的非暫時性電腦可讀媒體,其中當由一個或多個處理器執行時,該指令還使得一個或多個處理器:使用第三子帶神經網路處理一個或多個第三子帶網路輸入以生成第三經重構子帶音訊訊號的至少一個第三子帶音訊樣本;以及使用第四子帶神經網路處理一個或多個第四子帶網路輸入以生成第四經重構子帶音訊訊號的至少一個第四子帶音訊樣本,其中至少一個經重構音訊樣本還基於至少一個第三子帶音訊樣本、至少一個第四子帶音訊樣本或其組合。
根據示例61,一種裝置包括:用於使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出的部件,該一個或多個神經網路輸入包括至少一個先前音訊樣本;用於使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本的部件;用於使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本的部件;以及用於基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本的部件,其中至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合,並且其中到第二子帶神經網路的一個或多個第二子帶網路輸入包括至少一個先前第二子帶音訊樣本、至少一個先前經重構音訊樣本、至少一個第一子帶音訊樣本、至少一個先前第一子帶音訊樣本、神經網路輸出或其組合。
根據示例62,一種裝置包括:用於使用神經網路處理一個或多個神經網路輸入以生成神經網路輸出的部件,該一個或多個神經網路輸入包括至少一個先前音訊樣本;用於使用第一子帶神經網路處理一個或多個第一子帶網路輸入以生成第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本的部件,一個或多個第一子帶網路輸入至少包括神經網路輸出,其中第一經重構子帶音訊訊號對應於第一音訊子帶;用於使用第二子帶神經網路處理一個或多個第二子帶網路輸入以生成第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本的部件,一個或多個第二子帶網路輸入至少包括神經網路輸出,其中第二經重構子帶音訊訊號對應於不同於第一音訊子帶的第二音訊子帶;以及用於基於至少一個第一子帶音訊樣本和至少一個第二子帶音訊樣本,生成經重構音訊訊號的音訊幀的至少一個經重構音訊樣本的部件,其中至少一個先前音訊樣本包括第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
示例63包括示例62的裝置,其中使用神經網路進行處理的部件、使用第一子帶神經網路進行處理的部件、使用第二子帶神經網路進行處理的部件以及進行生成的部件被整合到智慧揚聲器、揚聲器條、電腦、平板電腦、顯示設備、電視、遊戲控制台、音樂播放器、收音機、數位視訊播放器、相機、導航設備、交通工具、耳機、增強實境耳機、混合實境耳機、虛擬實境耳機、飛行器、家庭自動化系統、語音啟用設備、無線揚聲器和語音啟用設備、便攜式電子設備、通訊設備、物聯網(IoT)設備、虛擬實境(VR)設備、基站或行動設備中的至少一個中。
所屬技術領域具有通常知識者將進一步理解,結合本文揭露的實施方式所描述的各種說明性邏輯方塊、配置、模組、電路和演算法步驟可以被實施為電子硬體、由處理器執行的電腦軟體或兩者的組合。各種說明性組件、方塊、配置、模組、電路和步驟已經在上面根據它們的功能進行了總體描述。這種功能是實施為硬體還是處理器可執行指令取決於具體應用和對整個系統施加的設計約束。熟練的技術人員可以對於每個具體應用以不同的方式實施所描述的功能,但是這樣的實施方式決定不應被造成為引起脫離本揭露的範圍。
結合本文所揭露的實施方式所描述的方法或演算法的步驟可以直接體現在硬體、由處理器執行的軟體模組或兩者的組合中。軟體模組可以駐留在隨機存取記憶體(random access memory, RAM)、快閃記憶體、唯讀記憶體(read-only memory, ROM)、可程式化唯讀記憶體(programmable read-only memory, PROM)、可抹除可程式化唯讀記憶體(erasable programmable read-only memory, EPROM)、電可抹除可程式化唯讀記憶體(electrically erasable programmable read-only memory, EEPROM)、暫存器、硬碟、可移動磁碟、光碟唯讀記憶體(compact disc read-only memory, CD-ROM)或本領域已知的任何其他形式的非瞬態儲存媒體中。示例性儲存媒體耦合到處理器,使得處理器可以從儲存媒體讀取資訊以及向儲存媒體寫入資訊。可替代的,儲存媒體可以整合到處理器中。處理器和儲存媒體可以駐留在特殊應用積體電路(ASIC)中。ASIC可以駐留在計算設備或用戶終端中。可替代的,處理器和儲存媒體可以作為離散組件駐留在電腦設備或用戶終端中。
提供對所揭露的態樣的先前描述是為了使所屬技術領域具有通常知識者能夠製作或使用所揭露的態樣。對這些態樣的各種修正對於所屬技術領域具有通常知識者來說將是顯而易見的,並且在不脫離本揭露的範圍的情況下,本文定義的原理可以應用於其他態樣。因此,本揭露不旨在限於本文所示的態樣,而是要符合與由以下請求項限定的原理和新穎特徵相一致的盡可能最寬的範圍。
100:系統
102:設備
190:處理器
140:FRAE解碼器
141:線性預測係數
171:特徵資料
173:基音增益
175:基音估計
150:音訊合成器
160:樣本生成網路
151:神經網路輸入
154:組合器
155:嵌入
161:神經網路輸出
162、162A、162B、162C、162D:子帶網路
165、165A、165B、165C、165D:經重構子帶音訊樣本
166:重構器
167:經重構音訊樣本
170:神經網路
103A、103B、103N:音訊幀
107:音訊樣本
153A、153B、153N:經重構音訊幀
105:音訊訊號
136:揚聲器
177:經重構音訊訊號
200:系統
202:設備
204:編碼器
206、240:數據機
208:發送器
238:接收器
241:經編碼音訊資料
243、253:特徵
250:幀速率網路
270、272:卷積層
276、278:全連接層
251:調節向量
311A、311B、311D:先前子帶音訊樣本
353:預測音訊資料
356、358:閘控循環單元
361、361A、361B、361C、361D:子帶神經網路輸入
368A、368B、368C:組合器
371:先前音訊樣本
562:神經網路
552:閘控循環單元
554:全連接層
556:softmax層
557:機率分佈
558:採樣
563、663:殘差資料
564:線性預測模組
559:預測音訊資料
565、665:經重構子帶音訊樣本
600:圖
610:長期預測引擎
611:合成殘差資料
612:長期預測濾波器
657、659:預測音訊資料
667:下一個預測音訊資料
630:短期線性預測引擎
632:短期線性預測濾波器
669:下一個預測音訊資料
700、800、900:圖
702、704、706、802、804、806、902、904、906:示例
711A、711B、811A、811B、811C、811D:音訊子帶
715A、715B、715C、715D、815A、815B、815C、815D、815E、815F、815G、815H:頻率
1000、1100、1200、1300、1400、1500、1600、1700、1800:實施方式
1002:積體電路
1004:訊號輸入
1006:訊號輸出
1051:輸入資料
1102:行動設備
1104:顯示螢幕
1202:耳機設備
1302:可穿戴電子設備
1304:顯示螢幕
1402:無線揚聲器和語音啟用設備
1502:相機設備
1602:耳機
1702、1802:交通工具
1820:顯示器
1900:方法
1902、1904、1906、1908:處理
2000:設備
2022:單晶片系統設備
2006、2010:處理器
2008:話音和音樂編解碼器
2036:聲碼器編碼器
2038:聲碼器解碼器
2026:顯示器控制器
2034:編解碼器
2002:數位類比轉換器
2004:類比數位轉換器
2048:數據機
2050:收發器
2086:記憶體
2056:指令
2028:顯示器
2030:輸入設備
2044:電源
2052:天線
2090:麥克風
圖1是根據本揭露的一些示例的可操作以使用包括神經網路和多個子帶網路的樣本生成網路來執行音訊樣本重構的系統的特定說明性態樣的方塊圖。
圖2是根據本揭露的一些示例的可操作以使用圖1的樣本生成網路來執行音訊樣本重構的系統的說明性態樣的圖。
圖3是根據本揭露的一些示例的圖1的樣本生成網路的說明性實施方式的圖。
圖4是根據本揭露的一些示例的圖1的樣本生成網路的另一說明性實施方式的圖。
圖5是根據本揭露的一些示例的圖1的樣本生成網路的子帶網路的實施方式的圖。
圖6是根據本揭露的一些示例的圖5的子帶網路的線性預測(linear prediction, LP)模組的說明性實施方式的圖。
圖7是根據本揭露的一些示例的對應於由圖1-2的任何系統生成的經重構子帶音訊樣本的音訊子帶的說明性示例的圖。
圖8是根據本揭露的一些示例的對應於由圖1-2的任何系統生成的經重構子帶音訊樣本的音訊子帶的附加說明性示例的圖。
圖9是根據本揭露的一些示例的對應於由圖1-2的任何系統生成的經重構子帶音訊樣本的音訊子帶的附加說明性示例的圖。
圖10圖示了根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的積體電路的示例。
圖11是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的行動設備的圖。
圖12是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的耳機的圖。
圖13是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的可穿戴電子設備的圖。
圖14是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的語音控制揚聲器系統的圖。
圖15是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的相機的圖。
圖16是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的耳機(諸如虛擬實境耳機、混合實境耳機或增強實境耳機)的圖。
圖17是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的交通工具的第一示例的圖。
圖18是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的交通工具的第二示例的圖。
圖19是根據本揭露的一些示例的可以由圖1的設備執行的使用神經網路和多個子帶網路的音訊樣本重構方法的特定實施方式的圖。
圖20是根據本揭露的一些示例的可操作以使用神經網路和多個子帶網路來執行音訊樣本重構的設備的特定說明性示例的方塊圖。
100:系統
102:設備
190:處理器
140:FRAE解碼器
141:線性預測係數
171:特徵資料
173:基音增益
175:基音估計
150:音訊合成器
160:樣本生成網路
151:神經網路輸入
154:組合器
155:嵌入
161:神經網路輸出
162:子帶網路
165:經重構子帶音訊樣本
166:重構器
167:經重構音訊樣本
170:神經網路
103A、103B、103N:音訊幀
107:音訊樣本
153A、153B、153N:經重構音訊幀
105:音訊訊號
136:揚聲器
177:經重構音訊訊號
Claims (32)
- 一種設備,包括: 一神經網路,該神經網路被配置為處理一個或多個神經網路輸入以生成一神經網路輸出,該一個或多個神經網路輸入包括至少一個先前音訊樣本; 一第一子帶神經網路,該第一子帶神經網路被配置為處理一個或多個第一子帶網路輸入以生成一第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本,該一個或多個第一子帶網路輸入至少包括該神經網路輸出,其中該第一經重構子帶音訊訊號對應於一第一音訊子帶; 一第二子帶神經網路,該第二子帶神經網路被配置為處理一個或多個第二子帶網路輸入以生成一第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本,該一個或多個第二子帶網路輸入至少包括該神經網路輸出,其中該第二經重構子帶音訊訊號對應於不同於該第一音訊子帶的一第二音訊子帶;以及 一重構器,該重構器被配置為基於該至少一個第一子帶音訊樣本和該至少一個第二子帶音訊樣本,生成一經重構音訊訊號的一音訊幀的至少一個經重構音訊樣本, 其中該至少一個先前音訊樣本包括:該第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、該第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、該經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
- 如請求項1所述的設備,其中該重構器被配置為根據該神經網路的一推斷生成該經重構音訊訊號的多個經重構音訊樣本,其中該第一子帶神經網路以該經重構音訊訊號的一採樣率進行操作,並且其中該第二子帶神經網路以該經重構音訊訊號的該採樣率進行操作。
- 如請求項1所述的設備,其中到該第一子帶神經網路的該一個或多個第一子帶網路輸入還包括:該至少一個先前第一子帶音訊樣本、該至少一個先前第二子帶音訊樣本、該至少一個先前經重構音訊樣本或其組合,並且其中到該第二子帶神經網路的該一個或多個第二子帶網路輸入還包括:該至少一個第一子帶音訊樣本、該至少一個先前第二子帶音訊樣本、該至少一個先前經重構音訊樣本、該至少一個先前第一子帶音訊樣本或其組合。
- 如請求項1所述的設備,還包括被配置為生成一個或多個附加子帶音訊訊號的至少一個附加子帶音訊樣本的一個或多個附加子帶神經網路,其中該至少一個經重構音訊樣本還基於該至少一個附加子帶音訊樣本。
- 如請求項1所述的設備,還包括: 一第三子帶神經網路,該第三子帶神經網路被配置為處理一個或多個第三子帶網路輸入以生成一第三經重構子帶音訊訊號的至少一個第三子帶音訊樣本;以及 一第四子帶神經網路,該第四子帶神經網路被配置為處理一個或多個第四子帶網路輸入以生成一第四經重構子帶音訊訊號的至少一個第四子帶音訊樣本, 其中該至少一個經重構音訊樣本還基於該至少一個第三子帶音訊樣本、該至少一個第四子帶音訊樣本或其組合。
- 如請求項5所述的設備,其中到該第三子帶神經網路的該一個或多個第三子帶網路輸入包括:該至少一個第二子帶音訊樣本和該神經網路輸出,並且其中到該第四子帶神經網路的該一個或多個第四子帶網路輸入包括該至少一個第三子帶音訊樣本和該神經網路輸出。
- 如請求項5所述的設備,其中該第三經重構子帶音訊訊號對應於一第三音訊子帶,並且該第四經重構子帶音訊訊號對應於一第四音訊子帶,其中該第三音訊子帶不同於該第一音訊子帶和該第二音訊子帶,並且其中該第四音訊子帶不同於該第一音訊子帶、該第二音訊子帶和該第三音訊子帶。
- 如請求項1所述的設備,其中一第一特定音訊子帶對應於一第一頻率範圍,其中一第二特定音訊子帶對應於一第二頻率範圍,並且其中該第一特定音訊子帶包括:該第一音訊子帶、該第二音訊子帶、第三音訊子帶或第四音訊子帶中的一個,並且其中該第二特定音訊子帶包括:該第一音訊子帶、該第二音訊子帶、該第三音訊子帶或該第四音訊子帶中的另一個。
- 如請求項8所述的設備,其中該第一頻率範圍具有大於或等於該第二頻率範圍的一第二寬度的一第一寬度。
- 如請求項8所述的設備,其中該第一頻率範圍至少部分地與該第二頻率範圍重疊。
- 如請求項8所述的設備,其中該第一頻率範圍與該第二頻率範圍鄰接。
- 如請求項1所述的設備,其中該神經網路的一循環層包括一閘控循環單元(gated recurrent unit, GRU)。
- 如請求項1所述的設備,其中該一個或多個神經網路輸入還包括一預測音訊資料。
- 如請求項13所述的設備,其中該預測音訊資料包括一長期預測(long-term prediction, LTP)資料、一線性預測(linear prediction, LP)資料或其組合。
- 如請求項1所述的設備,其中該一個或多個神經網路輸入還包括:至少一個子帶音訊樣本的一線性預測(LP)預測、至少一個先前子帶音訊樣本的一LP殘差、該至少一個先前子帶音訊樣本、該至少一個先前經重構音訊樣本或其組合。
- 如請求項1所述的設備,其中該第一子帶神經網路包括一第一神經網路,該第一神經網路被配置為處理該一個或多個第一子帶網路輸入以生成一第一殘差資料。
- 如請求項16所述的設備,其中該第一子帶神經網路還包括一第一線性預測(LP)濾波器,該第一線性預測濾波器被配置為基於線性預測係數(linear predictive coefficients, LPC)來處理該第一殘差資料以生成該至少一個第一子帶音訊樣本。
- 如請求項17所述的設備,其中該第一LP濾波器包括一長期預測(LTP)濾波器、一短期LP濾波器或兩者。
- 如請求項17所述的設備,還包括: 一數據機,該數據機被配置為從第二設備接收經編碼音訊資料;以及 一解碼器,該解碼器被配置為: 解碼該經編碼音訊資料以生成該音訊幀的一特徵資料;以及 基於該特徵資料估計該LPC。
- 如請求項17所述的設備,還包括: 一數據機,該數據機被配置為從第二設備接收經編碼音訊資料;以及 一解碼器,該解碼器配置為解碼該經編碼音訊資料以生成該LPC。
- 如請求項1所述的設備,其中該一個或多個第二子帶網路輸入還包括:至少一個子帶音訊樣本的一線性預測(LP)預測、至少一個先前子帶音訊樣本的一LP殘差、該至少一個先前子帶音訊樣本、該至少一個先前經重構音訊樣本、該至少一個第一子帶音訊樣本的一LP殘差、該至少一個第一子帶音訊樣本或其組合。
- 如請求項1所述的設備,其中該一個或多個第一子帶網路輸入還包括:至少一個子帶音訊樣本的一線性預測(LP)預測、至少一個先前子帶音訊樣本的一LP殘差、該至少一個先前子帶音訊樣本、該至少一個先前經重構音訊樣本或其組合。
- 如請求項1所述的設備,其中該重構器還被配置成向一揚聲器提供該音訊幀。
- 如請求項1所述的設備,其中該重構器包括一子帶重構濾波器組。
- 如請求項1所述的設備,其中該至少一個經重構音訊樣本包括多個音訊樣本。
- 如請求項1所述的設備,其中該經重構音訊訊號包括一經重構話音訊號。
- 一種方法,包括: 使用一神經網路,處理一個或多個神經網路輸入以生成一神經網路輸出,該一個或多個神經網路輸入包括至少一個先前音訊樣本; 使用一第一子帶神經網路,處理一個或多個第一子帶網路輸入以生成一第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本,該一個或多個第一子帶網路輸入至少包括該神經網路輸出,其中該第一經重構子帶音訊訊號對應於一第一音訊子帶; 使用一第二子帶神經網路,處理一個或多個第二子帶網路輸入以生成一第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本,該一個或多個第二子帶網路輸入至少包括該神經網路輸出,其中該第二經重構子帶音訊訊號對應於不同於該第一音訊子帶的一第二音訊子帶;以及 使用一重構器,基於該至少一個第一子帶音訊樣本和該至少一個第二子帶音訊樣本,生成一經重構音訊訊號的一音訊幀的至少一個經重構音訊樣本, 其中該至少一個先前音訊樣本包括:該第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、該第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、該經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
- 如請求項27所述的方法,其中到該第一子帶神經網路的該一個或多個第一子帶網路輸入還包括:該至少一個先前第一子帶音訊樣本、該至少一個先前第二子帶音訊樣本、該至少一個先前經重構音訊樣本或其組合,並且其中到該第二子帶神經網路的該一個或多個第二子帶網路輸入還包括:該至少一個第一子帶音訊樣本、該至少一個先前第二子帶音訊樣本、該至少一個先前經重構音訊樣本、該至少一個先前第一子帶音訊樣本或其組合。
- 一種非暫時性電腦可讀媒體,該非暫時性電腦可讀媒體儲存一指令,當由一個或多個處理器執行時,該指令使得該一個或多個處理器: 使用一神經網路,處理一個或多個神經網路輸入以生成一神經網路輸出,該一個或多個神經網路輸入包括至少一個先前音訊樣本; 使用一第一子帶神經網路,處理一個或多個第一子帶網路輸入以生成一第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本,該一個或多個第一子帶網路輸入至少包括該神經網路輸出,其中該第一經重構子帶音訊訊號對應於一第一音訊子帶; 使用一第二子帶神經網路,處理一個或多個第二子帶網路輸入以生成一第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本,該一個或多個第二子帶網路輸入至少包括該神經網路輸出,其中該第二經重構子帶音訊訊號對應於不同於該第一音訊子帶的一第二音訊子帶;以及 基於該至少一個第一子帶音訊樣本和該至少一個第二子帶音訊樣本,生成一經重構音訊訊號的一音訊幀的至少一個經重構音訊樣本, 其中該至少一個先前音訊樣本包括:該第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、該第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、該經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
- 如請求項29所述的非暫時性電腦可讀媒體,其中該指令在由該一個或多個處理器執行時還使得該一個或多個處理器: 使用一第三子帶神經網路,處理一個或多個第三子帶網路輸入以生成一第三經重構子帶音訊訊號的至少一個第三子帶音訊樣本;以及 使用一第四子帶神經網路,處理一個或多個第四子帶網路輸入以生成一第四經重構子帶音訊訊號的至少一個第四子帶音訊樣本, 其中該至少一個經重構音訊樣本還基於該至少一個第三子帶音訊樣本、該至少一個第四子帶音訊樣本或其組合。
- 一種裝置,包括: 用於使用一神經網路處理一個或多個神經網路輸入以生成一神經網路輸出的一部件,該一個或多個神經網路輸入包括至少一個先前音訊樣本; 用於使用一第一子帶神經網路處理一個或多個第一子帶網路輸入以生成一第一經重構子帶音訊訊號的至少一個第一子帶音訊樣本的一部件,該一個或多個第一子帶網路輸入至少包括該神經網路輸出,其中該第一經重構子帶音訊訊號對應於一第一音訊子帶; 用於使用一第二子帶神經網路處理一個或多個第二子帶網路輸入以生成一第二經重構子帶音訊訊號的至少一個第二子帶音訊樣本的一部件,該一個或多個第二子帶網路輸入至少包括該神經網路輸出,其中該第二經重構子帶音訊訊號對應於不同於該第一音訊子帶的一第二音訊子帶;以及 用於基於該至少一個第一子帶音訊樣本和該至少一個第二子帶音訊樣本,生成一經重構音訊訊號的一音訊幀的至少一個經重構音訊樣本的一部件, 其中該至少一個先前音訊樣本包括:該第一經重構子帶音訊訊號的至少一個先前第一子帶音訊樣本、該第二經重構子帶音訊訊號的至少一個先前第二子帶音訊樣本、該經重構音訊訊號的至少一個先前經重構音訊樣本或其組合。
- 如請求項31所述的裝置,其中使用該神經網路進行處理的該部件、使用該第一子帶神經網路進行處理的該部件、使用該第二子帶神經網路進行處理的該部件以及進行生成的該部件被整合到一智慧揚聲器、一揚聲器條、一電腦、一平板電腦、一顯示設備、一電視、一遊戲控制台、一音樂播放器、一收音機、一數位視訊播放器、一相機、一導航設備、一交通工具、一耳機、一增強實境耳機、一混合實境耳機、一虛擬實境耳機、一飛行器、一家庭自動化系統、一語音啟用設備、一無線揚聲器和語音啟用設備、一便攜式電子設備、一通訊設備、一物聯網(internet-of-things, IoT)設備、一虛擬實境(virtual reality, VR)設備、一基站或一行動設備中的至少一個中。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GR20220100343 | 2022-04-26 | ||
GR20220100343 | 2022-04-26 | ||
WOPCT/US23/63246 | 2023-02-24 | ||
PCT/US2023/063246 WO2023212442A1 (en) | 2022-04-26 | 2023-02-24 | Audio sample reconstruction using a neural network and multiple subband networks |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202345145A true TW202345145A (zh) | 2023-11-16 |
Family
ID=85724661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112107679A TW202345145A (zh) | 2022-04-26 | 2023-03-02 | 使用神經網路和多個子帶網路的音訊樣本重構 |
Country Status (2)
Country | Link |
---|---|
TW (1) | TW202345145A (zh) |
WO (1) | WO2023212442A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11437050B2 (en) * | 2019-09-09 | 2022-09-06 | Qualcomm Incorporated | Artificial intelligence based audio coding |
CN116391191A (zh) * | 2020-10-16 | 2023-07-04 | 杜比国际公司 | 用于处理滤波器组域中的音频样本的生成神经网络模型 |
-
2023
- 2023-02-24 WO PCT/US2023/063246 patent/WO2023212442A1/en active Application Filing
- 2023-03-02 TW TW112107679A patent/TW202345145A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023212442A1 (en) | 2023-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223493B (zh) | 语音信号降噪处理方法、传声器和电子设备 | |
US20230230572A1 (en) | End-to-end speech conversion | |
JP6374028B2 (ja) | 音声プロファイルの管理および発話信号の生成 | |
US10741192B2 (en) | Split-domain speech signal enhancement | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
US8600740B2 (en) | Systems, methods and apparatus for context descriptor transmission | |
CN102934163B (zh) | 用于宽带语音编码的系统、方法、设备 | |
Wang et al. | A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures | |
Yu et al. | SETransformer: Speech enhancement transformer | |
US11715480B2 (en) | Context-based speech enhancement | |
KR20160125984A (ko) | 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 | |
WO2011128723A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
Ahmed et al. | Speaker recognition using PCA-based feature transformation | |
Anees | Speech coding techniques and challenges: A comprehensive literature survey | |
TW202345145A (zh) | 使用神經網路和多個子帶網路的音訊樣本重構 | |
TW202333140A (zh) | 多頻帶寫碼的系統和方法 | |
WO2023133001A1 (en) | Sample generation based on joint probability distribution | |
Li | Improving Keywords Spotting Performance in Noise with Augmented Dataset from Vocoded Speech and Speech Denoising | |
CN118020101A (zh) | 与阵列几何形状无关的多通道个性化语音增强 | |
CN115035908A (zh) | 基于深度学习的语音频带扩展方法、装置及编码方法 | |
CN118077001A (zh) | 使用基于机器学习的时变滤波器和线性预测译码滤波器的组合的音频译码 |