TW202333144A

TW202333144A - 音訊訊號重構

Info

Publication number: TW202333144A
Application number: TW111134292A
Authority: TW
Inventors: 齊西斯艾森斯科迪利斯; 杜明達德瓦蘇倫德拉; 維維克拉金德蘭
Original assignee: 美商高通公司
Priority date: 2021-10-18
Filing date: 2022-09-12
Publication date: 2023-08-16
Also published as: WO2023069805A1; CN118120013A

Abstract

一種方法包括：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料。該方法亦包括：將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計。該方法亦包括：使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料。該方法亦包括：基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

Description

音訊訊號重構

本專利申請案主張於2021年10月18日提出申請的共同擁有的希臘臨時專利申請案第20210100708號的優先權的權益，該臨時專利申請案的內容經由引用以其整體明確地併入本文。

本案通常係關於音訊訊號重構。

技術上的進步催生了更小而更強大的計算設備。例如，目前存在多種可攜式個人計算設備，包括諸如移動和智慧型電話的無線電話、平板電腦和膝上型電腦，其體積小、重量輕並且易於使用者攜帶。這些設備可以經由無線網路來通訊嗓音（voice）和資料封包。此外，許多此類設備併入有額外功能性，諸如數位靜態相機、數位視訊相機、數位記錄器和音訊檔播放機。同樣地，這種設備可以處理可執行指令，包括可以被用於存取網際網路的軟體應用，諸如網路瀏覽器應用。因此，這些設備可以包括顯著的計算能力。

諸如行動電話的行動設備可以被用於編碼和解碼音訊。作為非限制性實例，第一行動設備可以偵測來自使用者的語音並且將該語音編碼為產生的經編碼音訊訊號。經編碼音訊訊號可以被通訊到第二行動設備，並且在接收到經編碼音訊訊號時，第二行動設備可以對該音訊訊號進行解碼以重構語音以用於重播。在一些情形下，可以使用複雜電路來解碼音訊訊號。然而，複雜電路可能留下相對較大的記憶體佔用。在不使用複雜電路來重構語音的其他情況下，語音的重構包括時間密集的操作。例如，需要多次反覆運算的語音重構演算法可以被用於重構語音。作為多次反覆運算的結果，處理效率可能降低。

根據本案的一個實施方式，一種設備包括記憶體以及耦合到該記憶體的一或多個處理器。該一或多個處理器被可操作地配置為：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料。該一或多個處理器亦被可操作地配置為：將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計。該一或多個處理器亦被可操作地配置為：使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料。該一或多個處理器亦被可操作地配置為：基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

根據本案的另一實施方式，一種方法包括：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料。該方法亦包括：將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計。該方法亦包括：使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料。該方法亦包括：基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

根據本案的另一實施方式，一種非暫時性電腦可讀取媒體包括指令，該指令在由一或多個處理器執行時使得該一或多個處理器：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料。該指令在由一或多個處理器執行時亦使得該一或多個處理器：將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計。該指令在由一或多個處理器執行時亦使得該一或多個處理器：使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料。該指令在由一或多個處理器執行時亦使得該一或多個處理器：基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

根據本案的另一實施方式，一種裝置包括：用於接收音訊資料的部件，該音訊資料包括描述音訊訊號的幅度譜資料。該裝置亦包括：用於將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計的部件。該裝置亦包括：用於使用相位估計演算法、基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料的部件。該裝置亦包括：用於基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號的部件。

本案的其他態樣、優點和特徵在閱讀整個申請（包括以下部分：附圖說明、實施方式和申請專利範圍）後將變得顯而易見。

揭示使用神經網路和相位估計演算法來重構音訊訊號的系統和方法。為了說明，行動設備可以接收經編碼音訊訊號。作為非限制性實例，擷取的語音可以被產生到音訊訊號中並且在遠端設備處被編碼，並且經編碼音訊訊號可以被通訊到行動設備。回應於接收到經編碼音訊訊號，行動設備可以進行解碼操作，以提取與音訊訊號的不同特徵相關聯的音訊資料。為了說明，行動設備可以進行解碼操作，以提取描述音訊訊號的幅度譜資料。

檢索的音訊資料可以作為輸入被提供給神經網路。例如，幅度譜資料可以作為輸入被提供給神經網路，並且神經網路可以基於幅度譜資料來產生第一音訊訊號估計。為了減少記憶體佔用，神經網路可以是低複雜度神經網路（例如，低複雜度自回歸產生神經網路）。可以基於由神經網路產生的第一音訊訊號估計的相位來辨識用於音訊訊號的一或多個取樣的初始相位估計。

相位估計演算法可以使用初始相位估計以及由從解碼操作中提取的幅度譜資料所指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位。作為非限制性實例，行動設備可以使用Griffin-Lim演算法以基於初始相位估計和幅度譜來決定目標相位。「Griffin-Lim演算法」對應於基於短期傅立葉轉換的冗餘的相位重構演算法。如本文所使用的，「目標相位」對應於與幅度譜一致的相位估計，使得具有目標相位的經重構音訊訊號聽起來基本上與原始音訊訊號相同。在一些情形下，目標相位可以對應於原始音訊訊號的相位的副本。在其他情形下，目標相位可以不同於原始音訊訊號的相位。因為相位估計演算法使用基於神經網路的輸出決定的初始相位估計被初始化，所以與使用隨機或預設相位估計相反，相位估計演算法可以經歷相對少量的反覆運算（例如，一次反覆運算、兩次反覆運算、少於五次反覆運算、少於二十次反覆運算等）以決定用於音訊訊號的一或多個取樣的目標相位。作為非限制性實例，與在使用隨機或預設相位估計來初始化相位估計演算法的情況下使用數百次反覆運算相反，可以基於相位估計演算法的單次反覆運算來決定目標相位。結果，可以改善處理效率和其他效能定時度量。經由使用由從解碼操作提取的幅度譜資料所指示的目標相位和幅度譜，行動設備可以重構音訊訊號，並且可以將經重構音訊訊號提供給揚聲器以用於播放。

因此，本文描述的技術使得能夠使用低複雜度神經網路以經由將神經網路與相位估計演算法進行組合來重構與目標音訊訊號相匹配的音訊訊號。在不將神經網路與相位估計演算法進行組合的情況下，單獨使用神經網路來產生高品質音訊輸出可能需要非常大且複雜的神經網路。經由使用相位估計演算法以對神經網路的輸出進行處理（例如，後處理），可以在保持高音訊品質的同時顯著降低神經網路的複雜度。神經網路複雜度的降低使得神經網路能夠在沒有高電池消耗的情況下在典型的行動設備中執行。在無法在神經網路上實現這種複雜度降低的情況下，不可能執行神經網路以在典型的行動設備中獲得高品質的音訊。亦應當理解，經由將神經網路與相位估計演算法進行組合，與在神經網路不存在的情況下通常必須經歷的大量反覆運算（例如，在一百次與五百次反覆運算之間）相反，可以經歷相位估計演算法的相對少量的反覆運算（例如，一次或兩次反覆運算）以決定目標相位。

下文參考附圖對本案的特定態樣進行描述。在說明書中，共同的特徵由共同的部件符號表示。如本文所使用的，各種術語僅用於描述特定實施方式的目的而不意欲限制這些實施方式。例如，單數形式「a（一）」、「an（一）」和「the（該）」亦意欲包括複數形式，除非上下文清楚地指出相反。此外，本文中所描述的一些特徵在一些實施方式中是單數，而在其他實施方式中是複數。為了說明，圖6圖示了包括一或多個處理器（圖6的「處理器」610）的實施方式600，其指示在實施方式600包括單個處理器610，而在其他情形中實施方式600包括多個處理器610。在本文中為了便於參考，這些特徵通常被介紹為「一或多個」特徵並且隨後以單數形式被提及，除非與這些特徵中的多個特徵相關的態樣正在被描述。

亦可以理解，術語「comprise（包括）」、「comprises（包括）」和「comprising（包括）」可以與「include（包括）」、「includes（包括）」或「including（包括）」互換使用。另外，應當理解，術語「wherein（其中）」可以與「where（其中）」互換使用。如本文所使用的，「示例性」可以指示實例、實施方式及/或態樣，並且不應被解釋為限制或指示偏好或優選實施方式。如本文中所使用的，用於修飾諸如結構、部件、操作等元素的序數術語（例如，「第一」、「第二」、「第三」等）本身並不指示該元素針對另一個元素的任何優先順序或順序，而僅僅是將該元素與具有相同名稱（但使用序數術語）的另一個元素區分開。如本文中所使用的，術語「集合」是指一或多個特定元素，並且術語「複數個」是指多個（例如，兩個或兩個以上）特定元素。

如本文中所使用的，「耦合」可以包括「通訊耦合」、「電耦合」或「實體耦合」，並且亦可以（或替代地）包括其任何組合。兩個設備（或部件）可以經由一或多個其他設備、部件、導線、匯流排、網路（例如，有線網路、無線網路或其組合）等直接或間接地耦合（例如，通訊耦合、電耦合或實體耦合）。作為說明性的非限制性實例，電耦合的兩個設備（或部件）可以被包括在同一設備或不同設備中，並且可以經由電子設備、一或多個連接器或電感耦合而連接。在一些實施方式中，諸如在電子通訊中的被通訊耦合的兩個設備（或部件）可以經由一或多個導線、匯流排、網路等直接或間接地發送和接收訊號（例如，數位訊號或類比訊號）。如本文中所使用的，「直接耦合」可以包括沒有中間部件而耦合（例如，通訊耦合、電耦合或實體耦合）的兩個設備。

在本案中，諸如「決定」、「計算」、「估計」、「移位」、「調整」等術語可以用於描述如何進行一或多個操作。應當注意，這些術語不應被解釋為限制性的，並且可以利用其他技術來進行類似的操作。另外，如本文所提到的，「產生」、「計算」、「估計」、「使用」、「選擇」、「存取」和「決定」可以互換使用。例如，「產生」、「計算」、「估計」或「決定」參數（或訊號）可以指主動地產生、估計、計算或決定參數（或訊號），或者可以指使用、選擇或存取已經產生的參數（或訊號），諸如由另一部件或設備產生。

參照圖1，被配置為使用神經網路和相位估計演算法來重構音訊訊號的系統的特定說明性態樣被揭示並且被通常指定為100。系統100包括神經網路102和音訊訊號重構單元104。根據一個實施方式，神經網路102和音訊重構訊號單元104可以被整合到行動設備中。作為非限制性實例，神經網路102和音訊重構訊號單元104可以被整合到行動電話、可穿戴設備、頭戴式耳機、載具、無人機、膝上型電腦等中。在一些實施方式中，神經網路102和音訊重構訊號單元104可以被整合到行動設備的解碼器中。根據另一實施方式，神經網路102和音訊重構訊號單元104可以被整合到其他設備（例如，非行動設備）中。作為非限制性實例，神經網路102和音訊重構訊號單元104可以被整合到電腦、物聯網路（IoT）設備等中。

神經網路102可以被配置為接收音訊資料110。根據一個實施方式，音訊資料110可以對應於從音訊解碼器（未圖示）接收到的經解量化的值。例如，音訊解碼器可以進行解碼操作以提取（例如，檢索、解碼、產生等）音訊資料110。音訊資料110包括描述音訊訊號的幅度譜資料114。根據一個實例，「音訊訊號」可以對應於在遠端裝置處被編碼並且被通訊到與系統100相關聯的設備的語音訊號。儘管在圖1中圖示幅度譜資料114，但是在其他實施方式中，描述其他特徵（例如，語音特徵）的資料可以被包括在音訊資料110中。作為非限制性實例，音訊資料110亦可以包括描述音訊訊號的音調資料、描述音訊訊號的相位估計資料等。

神經網路102可以被配置為基於音訊資料110來產生用於音訊訊號的一或多個取樣的初始相位估計116。例如，如關於圖4所描述的，神經網路102可以基於音訊資料110產生第一音訊訊號估計130。第一音訊訊號估計130可以對應於音訊訊號的一或多個取樣在時域中的初步（或初始）重構。可以對第一音訊訊號估計130進行變換操作（例如，短時傅立葉轉換（STFT）操作）以產生用於音訊訊號c的一或多個取樣的初始相位估計116。初始相位估計116被提供給音訊訊號重構單元104。

神經網路102可以是低複雜度神經網路，其具有相對較小的記憶體佔用並且消耗相對較少量的處理功率。神經網路102可以是自回歸神經網路。根據一個實施方式，神經網路102可以是用於音訊產生的單層遞迴神經網路（RNN），諸如WaveRNN。WaveRNN的一個實例是LPCNet。

音訊訊號重構單元104包括目標相位估計器106。目標相位估計器106可以被配置為執行相位估計演算法108以決定用於音訊訊號的一或多個取樣的目標相位118。作為非限制性實例並且如參考圖2進一步描述的，相位估計演算法108可以對應於Griffin-Lim演算法。然而，在其他實施方式中，相位估計演算法108可以對應於其他演算法。作為非限制性實例，相位估計演算法108可以對應於Gerchberg-Saxton（GS）演算法、Wirtinger Flow（WF）演算法等。

通常，相位估計演算法108可以對應於從譜幅度的冗餘表示來估計譜相位的任何訊號處理演算法（或語音處理演算法）。為了說明，幅度譜資料114在由音訊訊號重構單元104處理時可以指示音訊訊號的一或多個取樣的幅度譜140（例如，原始幅度譜（A _orig）140）。幅度譜（A _orig）140可以對應於與相鄰的加窗短時幅度譜重疊的加窗短時幅度譜。例如，與幅度譜（A _orig）140的第一部分相關聯的第一訊窗可以與關聯於幅度譜（A _orig）140的第二部分的第二訊窗重疊。在該實例中，幅度譜（A _orig）140的第一部分對應於音訊訊號的一或多個取樣中的第一取樣的幅度譜，並且幅度譜（A _orig）140的第二部分對應於音訊訊號的一或多個取樣中的第二取樣的幅度譜。根據一個實施方式，第一訊窗的至少百分之五十與第二訊窗的至少百分之五十重疊。根據另一實施方式，第一訊窗的一個取樣與第二訊窗的一個取樣重疊。

基於原始幅度譜（A _orig）140和初始相位估計116，目標相位估計器106可以執行相位估計演算法108以決定音訊訊號的一或多個取樣的目標相位118。例如，目標相位估計器106可以基於初始相位估計116和原始幅度譜（A _orig）140來執行逆變換操作（例如，短時傅裡葉逆變換（ISTFT）操作），以產生第二音訊訊號估計142。第二音訊訊號估計142可以對應於音訊訊號的一或多個取樣在時域中的初步（或初始）重構。經由對第二音訊訊號估計142進行變換操作（例如，STFT操作），可以決定目標相位118。音訊訊號重構單元104可以被配置為基於目標相位118和原始幅度譜（A _orig）140來執行逆變換操作（例如，ISTFT操作）以產生經重構音訊訊號120。

參照圖1描述的技術經由使用低複雜度神經網路102來減少與產生經重構音訊訊號120相關聯的記憶體佔用。另外，因為與使用隨機或預設相位估計（例如，未基於音訊資料110的相位估計）相反，使用基於神經網路102的輸出所決定的初始相位估計116來初始化相位估計演算法108，所以相位估計演算法108可以經歷相對少量的反覆運算以決定用於經重構音訊訊號120的目標相位118。作為非限制性實例，若使用隨機相位估計來初始化相位估計演算法108，則目標相位估計器106可以基於相位估計演算法108的單次反覆運算而不是使用數百次反覆運算來決定目標相位118。結果，可以提高處理效率和其他效能度量（諸如功率利用率）。

參照圖2，使用相位估計演算法以基於來自神經網路的初始相位估計來重構音訊訊號的系統的特定說明性態樣被揭示並且被通常指定為200。系統200包括相位選擇器202、幅度譜選擇器204、逆變換操作單元206和變換操作單元208。根據一個實施方式，相位選擇器202、幅度譜選擇器204、逆變換操作單元206和變換操作單元208可以被整合到圖1的音訊訊號重構單元104中。

根據一個實施方式，系統200圖示了執行相位估計演算法108的非限制性實例。作為非限制性實例，系統200可以圖示由音訊訊號重構單元104使用以產生經重構音訊訊號120的Griffin-Lim演算法的單次反覆運算250。單次反覆運算250可以被用於決定目標相位118，並且由虛線圖示。如下所描述的，回應於決定目標相位118，可以基於目標相位118和原始幅度譜（A _orig）140來產生經重構音訊訊號120。

根據圖2的實例，來自神經網路102的初始相位估計116被提供給相位選擇器202，並且由幅度譜資料114指示的原始幅度譜（A _orig）140被提供給幅度譜選擇器204。相位選擇器202可以選擇初始相位估計116來初始化相位估計演算法108，並且幅度譜選擇器204可以選擇原始幅度譜（A _orig）140來初始化相位估計演算法108。結果，在單次反覆運算250期間，初始相位估計116和原始幅度譜（A _orig）140被提供給逆變換操作單元206。

逆變換操作單元206可以被配置為基於初始相位估計116和原始幅度譜（A _orig）140來執行逆變換操作，以產生第二音訊訊號估計142。作為非限制性實例，逆變換操作單元206可以使用初始相位估計116和原始幅度譜（A _orig）140來執行ISTFT操作，以產生第二音訊訊號估計142，使得，其中對應於第二音訊訊號估計142並且對應於初始相位估計116。儘管描述了ISTFT操作，但是在其他實施方式中，逆變換操作單元206可以基於初始相位估計116和原始幅度譜（A _orig）140來進行其他逆變換操作。作為非限制性實例，逆變換操作單元206可以執行逆傅立葉轉換操作、逆離散傅立葉轉換操作等。

變換操作單元208可以被配置為對第二音訊訊號估計142進行變換操作以決定目標相位118。作為非限制性實例，變換操作單元208可以對第二音訊訊號估計142進行STFT操作以產生頻域訊號（未圖示）。頻域訊號可以具有相位（例如，目標相位118）和幅度（例如，幅度譜）。由於與原始幅度譜（A _orig）140相關聯的顯著訊窗重疊，目標相位118與初始相位估計116稍微不同。目標相位118被提供給相位選擇器202，以用於產生經重構音訊訊號120。頻域訊號的幅度可以被丟棄。儘管描述了STFT操作，但是在其他實施方式中，變換操作單元208可以對第二音訊訊號估計142進行其他變換操作。作為非限制性實例，變換操作單元208可以進行傅立葉轉換操作、離散傅立葉轉換操作等。

在單次反覆運算250之後，相位選擇器202可以選擇目標相位118以提供給逆變換操作單元206，並且幅度譜選擇器204可以選擇原始幅度譜（A _orig）140以提供給逆變換操作單元206。逆變換操作單元206可以被配置為基於目標相位118和原始幅度譜（A _orig）140來執行逆變換操作，以產生經重構音訊訊號120。作為非限制性實例，逆變換操作單元206可以使用目標相位118和原始幅度譜（A _orig）140來執行ISTFT操作，以產生經重構音訊訊號120，使得，其中對應於經重構音訊訊號120並且對應於目標相位118。

應當理解，關於圖2描述的技術僅僅描述了相位估計演算法108的一個非限制性實例。其他相位估計演算法和實施方式可以被用於基於來自神經網路102的初始相位估計116來產生經重構音訊訊號120。

關於圖2描述的技術可以導致相位估計演算法的反覆運算次數減少（例如，單次反覆運算250）。例如，因為與基於音訊資料的相位估計（諸如隨機或預設相位估計）相反，使用基於神經網路102的輸出所決定的初始相位估計116來初始化系統200的操作，所以相位估計演算法可以使用相對較少的反覆運算次數來收斂以決定經重構音訊訊號120的目標相位118。作為非限制性實例，若使用隨機相位估計來初始化相位估計系統200，則系統200可以基於單次反覆運算250而不是使用數百次反覆運算來決定目標相位118。結果，可以改善處理效率和其他效能度量。

參照圖3，被配置為基於經重構音訊訊號來向神經網路提供回饋的系統的特定說明性態樣被揭示並且被通常指定為300。系統300包括與圖1的系統100類似的部件，並且可以以基本上類似的方式操作。例如，系統300包括神經網路102和音訊訊號重構單元104。

然而，在圖3所示的實例中，與經重構音訊訊號120相關聯的第一經重構資料取樣作為輸入被提供給神經網路102，作為延遲302之後的回饋。經由將經重構音訊訊號120提供給神經網路102，經重構音訊訊號120可以被用於產生用於音訊訊號的額外取樣（例如，一或多個第二取樣）的相位估計。例如，神經網路102可以使用來自與經重構音訊訊號120相關聯的第一經重構資料取樣的幅度和相位資訊來產生用於一或多個後續取樣的相位估計。

參照圖3描述的技術使得神經網路102能夠產生改進的音訊訊號估計。例如，經由向神經網路102提供經重構資料取樣作為回饋，神經網路102可以產生改進的輸出（例如，訊號估計和相位估計）。可以使用改進的初始相位估計來初始化相位估計演算法108，這使得相位估計演算法108能夠以更準確地再現原始音訊訊號的方式產生經重構音訊訊號120。

參照圖4，被配置為產生用於相位估計演算法的初始相位估計的系統的特定說明性態樣被揭示並且被通常指定為400。系統400包括畫面播放速率單元402、取樣速率單元404、濾波器408和變換操作單元410。根據一個實施方式，系統400的一或多個部件可以被整合到神經網路102中。

畫面播放速率單元402可以接收音訊資料110。根據一個實施方式，音訊資料110對應於從音訊解碼器（例如，回饋循環自動編碼器（FRAE）的解碼器部分、自我調整多速率編碼器等）接收的經解量化的值。畫面播放速率單元402可以被配置為將音訊資料110以特定畫面播放速率提供到取樣速率單元404。作為非限制性實例，若以每秒六十訊框的速率擷取音訊，則畫面播放速率單元402可以以每六十分之一秒為單個訊框提供音訊資料110。

取樣速率單元404可以包括兩個閘控循環單元（GRU），其可以類比激勵訊號（e _t）的概率分佈。激勵訊號（e _t）被取樣並且與來自濾波器408（例如，LPC濾波器）的預測（P _t）進行組合以產生音訊取樣（s _t）。變換操作單元410可以對音訊取樣（s _t）進行變換操作，以產生被提供給音訊訊號重構單元104的第一音訊訊號估計130。

經重構音訊訊號120和音訊取樣（s _t）作為回饋被提供給取樣速率單元404。音訊取樣（s _t）經受第一延遲412，並且經重構音訊訊號120經受第二延遲302。在特定態樣，第一延遲412不同於第二延遲302。經由向取樣速率單元404提供經重構音訊訊號120，經重構音訊訊號120可以被用於訓練系統400並且改進來自系統400的未來的音訊訊號估計。

參照圖5，圖示重構音訊訊號的方法500的特定實施方式。在特定態樣，方法500的一或多個操作由圖1的系統100、圖2的系統200、圖3的系統300、圖4的系統400或其組合來進行。

在方塊502處，方法500包括接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料。例如，參照圖1，系統100接收包括幅度譜資料114的音訊資料110。

在方塊504處，方法500亦包括將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計。例如，參照圖1，音訊資料110作為輸入被提供給神經網路102以產生初始相位估計116。神經網路102可以包括自回歸神經網路。

根據一些實施方式，方法500包括使用神經網路基於音訊資料來產生第一音訊訊號估計。例如，參照圖1，神經網路102基於音訊資料110來產生第一音訊訊號估計130。方法500亦可以包括基於第一音訊訊號估計130來產生初始相位估計116。例如，產生初始相位估計116可以包括對第一音訊訊號估計130進行短時傅立葉轉換（STFT）操作以決定幅度（例如，振幅）和相位。相位可以對應於初始相位估計116。

在方塊506處，方法500亦包括使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料。例如，參照圖2，系統200可以基於初始相位估計和原始幅度譜（A _orig）140來決定目標相位118。

在方塊508處，方法500亦包括基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。例如，參考圖2，系統200可以基於目標相位118和原始幅度譜（A _orig）140來產生經重構音訊訊號120。根據一些實施方式，方法500包括基於初始相位估計和幅度譜來執行逆短時傅裡葉變換（ISTFT）操作，以產生第二音訊訊號估計。例如，參照圖2，逆變換操作單元206可以基於初始相位估計116和原始幅度譜（A _orig）140來執行ISTFT操作，以產生第二音訊訊號估計142。方法500亦可以包括對第二音訊訊號估計執行短時傅立葉轉換（STFT）以決定目標相位。例如，參照圖2，變換操作單元208可以對第二音訊訊號估計142進行STFT操作以決定目標相位118。方法500亦可以包括基於目標相位和幅度譜來執行ISTFT操作，以重構音訊訊號。例如，參照圖2，逆變換操作單元206可以基於目標相位118和原始幅度譜（A _orig）140來執行ISTFT操作，以產生經重構音訊訊號120。

根據一些實施方式，方法500亦可以包括提供與經重構音訊訊號相關聯的第一經重構資料取樣作為神經網路的輸入，以產生用於音訊訊號的一或多個第二取樣的相位估計。例如，參照圖3，神經網路102可以接收經重構音訊訊號120作為回饋，以產生用於音訊訊號的其他取樣的額外相位估計。

圖5的方法500經由使用低複雜度神經網路102來減少與產生經重構音訊訊號120相關聯的記憶體佔用。另外，由於與未基於音訊訊號的相位估計相反，使用基於神經網路102的輸出所決定的初始相位估計116來初始化相位估計演算法108，所以相位估計演算法108可以經歷相對少量次的反覆運算以決定用於經重構音訊訊號120的目標相位118。作為非限制性實例，若使用隨機相位估計來初始化相位估計演算法108，則目標相位估計器106可以基於相位估計演算法108的單次反覆運算而不是使用數百次反覆運算來決定目標相位118。結果，可以提高處理效率和其他效能度量。

方法500可以由現場可程式設計閘陣列（FPGA）裝置、特殊應用積體電路（ASIC）、諸如中央處理單元（CPU）的處理單元、數位訊號處理單元（DSP）、控制器、另一硬體設備、韌體設備或其任何組合來實施。作為實例，方法500可以由執行指令的處理器來執行，諸如參照圖6-圖7所描述的。

圖6圖示了實施方式600，其中設備602包括一或多個處理器610，該處理器610包括圖1的系統100的部件。例如，設備602包括神經網路102和音訊訊號重構單元104。儘管沒有明確圖示，但是設備602可以包括圖2的系統200、圖3的系統300、圖4的系統400或其組合的一或多個部件。

設備602亦包括被配置為接收音訊資料110的輸入介面604（例如，一或多個有線或無線介面）以及被配置為向重播設備（例如，揚聲器）提供經重構音訊訊號120的輸出介面606（例如，一或多個有線或無線介面）。根據一個實施方式，輸入介面604可以從音訊解碼器接收音訊資料110。作為說明性的非限制性實例，設備602可以對應於用以提供音訊解碼（諸如在行動電話、另一通訊設備、娛樂系統或載具內）的晶片上系統或者可以被整合到其他系統中的其他模組化設備。根據一些實施方式，設備1302可以被整合到伺服器、行動通訊設備、智慧型電話、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、顯示裝置、電視機、遊戲控制台、音樂播放機、收音機、數位視訊播放機、DVD播放機、調諧器、相機、導航設備、頭戴式耳機、增強現實頭戴式耳機、混合現實頭戴式耳機、虛擬實境頭戴式耳機、諸如汽車的機動載具、或者其任何組合中。

在圖示的實施方式600中，設備602包括記憶體620（例如，一或多個記憶體設備），其包括指令622。設備602亦包括耦合到記憶體620並且被配置為執行來自記憶體620的指令622的一或多個處理器610。在實施方式600中，神經網路102及/或音訊訊號重構單元104可以對應於指令622或經由指令622來實施。例如，當處理器610執行指令622時，處理器610可以接收音訊資料110，其包括描述音訊訊號的幅度譜資料114。處理器610亦可以將音訊資料110作為輸入提供給神經網路102，以產生用於音訊訊號的一或多個取樣的初始相位估計116。處理器610亦可以使用相位估計演算法108，基於初始相位估計116以及由幅度譜資料114指示的音訊訊號的一或多個取樣的幅度譜140來決定用於音訊訊號的一或多個取樣的目標相位118。處理器610亦可以基於目標相位118和幅度譜140來重構音訊訊號（例如，產生經重構音訊訊號120）。

圖7圖示了實施方式700，其中作為說明性的非限制性實例，設備602被整合到諸如電話或平板電腦的行動設備702中。行動設備702包括被定位為主要擷取使用者的語音的麥克風710、被配置為輸出聲音的揚聲器720、以及顯示螢幕704。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。例如，音訊資料可以作為經編碼位元串流的一部分被發送到行動設備702。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器720處理並且輸出。

圖8圖示了實施方式800，其中設備602被整合到頭戴式耳機設備802中。頭戴式耳機設備802包括被定位為主要擷取使用者的語音的麥克風810，以及一或多個耳機820。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。作為非限制性實例，音訊資料可以作為編碼位元串流的一部分或作為媒體位元串流的一部分被發送到頭戴式耳機設備802。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由耳機820處理並且輸出。

圖9圖示了實施方式900，其中設備602被整合到可穿戴電子設備902（被圖示為「智慧手錶」）中。可穿戴電子設備902可以包括麥克風910、揚聲器920和顯示螢幕904。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。例如，音訊資料可以作為編碼位元串流的一部分被發送到可穿戴電子設備902。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器920處理並且輸出。

圖10是實施方式1000，其中設備602被整合到無線揚聲器和嗓音啟動設備1002中。無線揚聲器和嗓音啟動設備1002可以具有無線網路連線性，並且被配置為執行輔助操作。無線揚聲器和嗓音啟動設備1002包括麥克風1010和揚聲器1020。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器1020處理並且輸出。

圖11圖示了實施方式1100，其中設備602被整合到對應於相機設備1102的可攜式電子設備中。相機設備1102包括麥克風1110和揚聲器1120。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器1120處理並且輸出。

圖12圖示了實施方式1200，其中設備602被整合到對應於擴展現實（「XR」）頭戴式耳機1202（諸如虛擬實境（「VR」）、增強現實（「AR」）或混合現實（「MR」）頭戴式耳機設備）的可攜式電子設備中。視覺周邊設備被定位在使用者眼睛的前方，以便在佩戴頭戴式耳機1202時能夠向使用者顯示增強現實或虛擬實境的圖像或場景。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器1220處理並且輸出。在特定實例中，視覺周邊設備被配置為顯示指示來自麥克風1210的使用者語音的通知或者指示來自由揚聲器1220輸出的聲音的使用者語音的通知。

圖13圖示了實施方式1300，其中設備602對應於載具1302或者被整合在載具1302內，載具1302被圖示為有人駕駛或無人駕駛的空中設備（例如包裹遞送無人機）。載具1302包括麥克風1310和揚聲器1320。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器1320處理並且輸出。

圖14圖示了另一實施方式1400，其中設備602對應於載具1402（被圖示為汽車）或被整合在載具1402內。載具1402亦包括麥克風1410和揚聲器1420。麥克風1410被定位為擷取載具1402的操作者的話語。設備602可以接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。設備602亦可以將音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。設備602亦可以使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜來決定用於音訊訊號的一或多個取樣的目標相位（例如，目標相位118）。設備602亦可以基於目標相位和幅度譜來重構音訊訊號（例如，產生經重構音訊訊號120）。經重構音訊訊號可以作為聲音由揚聲器1420處理並且輸出。載具1402的一或多個操作可以基於偵測到的一或多個關鍵字（例如，「解鎖」、「啟動引擎」、「播放音樂」、「顯示天氣預報」或者另一嗓音命令）來啟動，諸如經由經由顯示器1420或揚聲器1420提供回饋或資訊。

參照圖15，設備的特定說明性實施方式的方塊圖被揭示並且被通常指定為1500。在各種實施方式中，設備1500可以具有比圖15所圖示的更多或更少的部件。在說明性實施方式中，設備1500可以進行參考圖1-圖14描述的一或多個操作。

在特定實施方式中，設備1500包括處理器1506（例如，CPU）。設備1500可以包括一或多個額外處理器1510（例如，一或多個數位訊號處理器（DSP）、一或多個圖形處理單元（GPU）或者其組合）。處理器1510可以包括語音和音樂解碼器-解碼器（CODEC）1508。語音和音樂解碼器1508可以包括嗓音解碼器（「聲碼器（vocoder）」）編碼器1536、聲碼器解碼器1538或兩者。在特定態樣，聲碼器解碼器1538包括神經網路102和音訊訊號重構單元104。儘管未明確圖示，但是聲碼器解碼器1538可以包括圖2的系統200、圖3的系統300、圖4的系統400或其組合的一或多個部件。

設備1500亦包括記憶體1586和CODEC 1534。記憶體1586可以包括能夠由一或多個額外處理器1510（或處理器1506）執行以實現參考圖1的系統100、圖2的系統200、圖3的系統300、圖4的系統400或其組合描述的功能的指令1556。設備1500可以包括經由收發器1550耦合到天線1590的數據機1540。

設備1500可以包括耦合到顯示控制器1526的顯示器1528。揚聲器1596和麥克風1594可以耦合到CODEC 1534。CODEC 1534可以包括數位類比轉換器（DAC）1502和類比數位轉換器（ADC）1504。在特定實施方式中，CODEC 1534可以從麥克風1594接收類比訊號，使用類比數位轉換器1504將類比訊號轉換為數位訊號，以及將數位訊號提供到語音和音樂解碼器1508。語音和音樂解碼器1508可以處理數位訊號。在特定實施方式中，語音和音樂解碼器1508可以向CODEC 1534提供數位訊號。根據一個實施方式，CODEC 1534可以根據參考圖1-圖14描述的技術來處理數位訊號以產生經重構音訊訊號120。CODEC 1534可以使用數位類比轉換器1502將數位訊號（例如，經重構音訊訊號120）轉換為類比訊號，並且可以將類比訊號提供給揚聲器1596。

在特定實施方式中，設備1500可以被包括在系統級封裝或片上系統設備1522中。在特定實施方式中，記憶體1586、處理器1506、處理器1510、顯示控制器1526、CODEC 1534和數據機1540被包括在系統級封裝或片上系統設備1522中。在特定實施方式中，輸入裝置1530和電源1544耦合到系統級封裝或片上系統設備1522。此外，在特定實施方式中，如圖15中所圖示，顯示器1528、輸入裝置1530、揚聲器1596、麥克風1594、天線1590和電源1544在系統級封裝或片上系統設備1522的外部。在特定實施方式中，顯示器1528、輸入裝置1530、揚聲器1596、麥克風1594、天線1590和電源1544中的每一者可以耦合到系統級封裝或片上系統設備1522的部件，諸如介面或控制器。在一些實施方式中，設備1500包括額外記憶體，其在系統級封裝或片上系統設備1522外部，並且經由介面或控制器耦合到該系統級封裝或片上系統設備1522。

設備1500可以包括智慧揚聲器（例如，處理器1506可以執行指令1556以執行嗓音控制的數位助理應用）、揚聲器棒、行動通訊設備、智慧型電話，蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理，顯示裝置，電視，遊戲控制台，音樂播放機、收音機、數位視訊播放機、DVD播放機、調諧器、相機、導航設備、頭戴式耳機、增強現實頭戴式耳機、混合現實頭戴式耳機、虛擬實境頭戴式耳機、載具或者其任意組合。

結合所描述的實施方式，一種裝置包括：用於接收音訊資料的部件，該音訊資料包括描述音訊訊號的幅度譜資料。例如，用於接收的部件包括神經網路102、音訊訊號重構單元104、幅度譜選擇器204、畫面播放速率單元402、輸入介面604、處理器610、處理器1506、處理器1510、數據機1540、收發器1550、語音和音樂解碼器1508、圖15的聲碼器解碼器1538、被配置為接收音訊資料的一或多個其他電路或部件、或者其任何組合。

該裝置亦包括：用於將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計的部件。例如，用於將音訊資料作為輸入提供給神經網路的部件包括處理器610、處理器1506、處理器1510、語音和音樂解碼器1508、圖15的聲碼器解碼器1538、被配置為將音訊資料作為輸入提供給神經網路的一或多個其他電路或部件、或者其任何組合。

該裝置亦包括：用於使用相位估計演算法、基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料的部件。例如，用於決定目標相位資料的部件包括音訊訊號重構單元104、目標相位估計器106、相位選擇器202、幅度譜選擇器204、逆變換操作單元206、變換操作單元208、處理器610、處理器1506、處理器1510、語音和音樂解碼器1508、圖15的聲碼器解碼器1538、被配置為決定目標相位資料的一或多個其他電路或部件、或者其任何組合。

該裝置亦包括：用於基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號的部件。例如，用於重構音訊訊號的部件包括音訊訊號重構單元104、目標相位估計器106、相位選擇器202、幅度譜選擇器204、逆變換操作單元206、變換操作單元208、處理器610、處理器1506、處理器1510、語音和音樂解碼器1508、圖15的聲碼器解碼器1538、被配置為重構音訊訊號的一或多個其他電路或部件、或者其任何組合。

在一些實施方式中，一種非暫時性電腦可讀取媒體包括指令，該指令在由設備的一或多個處理器執行時使得該一或多個處理器接收音訊資料（例如，音訊資料110），其包括描述音訊訊號的幅度譜資料（例如，幅度譜資料114）。該指令在由該一或多個處理器執行時使得該一或多個處理器將該音訊資料作為輸入提供給神經網路（例如，神經網路102），以產生用於該音訊訊號的一或多個取樣的初始相位估計（例如，初始相位估計116）。該指令在由該一或多個處理器執行時使得該一或多個處理器使用相位估計演算法（例如，相位估計演算法108），基於初始相位估計以及音訊訊號的一或多個取樣的、由幅度譜資料指示的幅度譜（例如，幅度譜140）來決定用於音訊訊號的一或多個取樣的目標相位資料（例如，目標相位118）。該指令在由該一或多個處理器執行時使得該一或多個處理器基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

本案包括以下實例。

實例1包括一種設備，該設備包括：記憶體；及一或多個處理器，耦合到該記憶體並且可操作地被配置為：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料；將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計；使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料；及基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

實例2包括實例1的設備，其中該神經網路被配置為基於該音訊資料來產生第一音訊訊號估計，並且其中該指令在被執行時亦使得該一或多個處理器基於該第一音訊訊號估計來產生該初始相位估計。

實例3包括實例2的設備，其中該一或多個處理器可操作地被配置為：對該第一音訊訊號估計執行短時傅立葉轉換（STFT）操作以決定該初始相位估計。

實例4包括實例1至3中任一項的設備，其中一或多個處理器可操作地被配置為：基於該初始相位估計和該幅度譜來執行逆短時傅裡葉變換（ISTFT）操作，以產生第二音訊訊號估計；對該第二音訊訊號估計執行短時傅立葉轉換（STFT）以決定該目標相位；及基於該目標相位和該幅度譜來執行ISTFT操作以重構該音訊訊號。

實例5包括實例1至4中任一項的設備，其中與該幅度譜的第一部分相關聯的第一訊窗重疊於與該幅度譜的第二部分相關聯的第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的第一取樣的幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的第二取樣的幅度譜。

實例6包括實例5的設備，其中該第一訊窗的至少一個取樣與該第二訊窗的至少一個取樣重疊。

實例7包括實例1至6中任一項的設備，其中該一或多個處理器可操作地被配置為：提供與該經重構音訊訊號相關聯的第一經重構資料取樣作為該神經網路的輸入，以產生用於該音訊訊號的一或多個第二取樣的相位估計。

實例8包括實例1至7中任一項的設備，其中該神經網路包括自回歸神經網路。

實例9包括實例1至8中任一項的設備，其中該相位估計演算法對應於Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的一次反覆運算或該Griffin-Lim演算法的兩次反覆運算而被決定。

實例10包括實例1至9中任一項的設備，其中該音訊資料對應於從音訊解碼器接收到的經解量化的值。

實例11包括一種方法，該方法包括：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料；將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計；使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料；及基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

實例12包括實例11的方法，亦包括：基於該音訊資料，使用該神經網路來產生基於該音訊資料的第一音訊訊號估計；及基於該第一音訊訊號估計來產生該初始相位估計。

實例13包括實例12的方法，其中產生該初始相位估計包括對該第一音訊訊號估計執行短時傅立葉轉換（STFT）操作。

實例14包括實例11至13中任一項的方法，亦包括：基於該初始相位估計和該幅度譜來執行逆短時傅裡葉變換（ISTFT）操作，以產生第二音訊訊號估計；對該第二音訊訊號估計執行短時傅立葉轉換（STFT）以決定該目標相位；及基於該目標相位和該幅度譜來執行ISTFT操作以重構該音訊訊號。

實例15包括實例11至14中任一項的方法，其中與該幅度譜的第一部分相關聯的第一訊窗重疊於與該幅度譜的第二部分相關聯的第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的第一取樣的幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的第二取樣的幅度譜。

實例16包括實例15的方法，其中該第一訊窗的至少一個取樣與該第二訊窗的至少一個取樣重疊。

實例17包括實例11至16中任一項的方法，亦包括：提供與該經重構音訊訊號相關聯的第一經重構資料取樣作為該神經網路的輸入，以產生用於該音訊訊號的一或多個第二取樣的相位估計。

實例18包括實例11至17中任一項的方法，其中該神經網路包括自回歸神經網路。

實例19包括實例11至18中任一項的方法，其中該相位估計演算法對應於Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的五次反覆運算或更少次反覆運算而被決定。

實例20包括實例11至19中任一項的方法，其中使用該相位估計演算法與該神經網路來重構該音訊訊號使得該神經網路能夠為低複雜度神經網路。

實例21包括一種非暫時性電腦可讀取媒體，該非暫時性電腦可讀取媒體包括指令，該指令在由一或多個處理器執行時使得該一或多個處理器：接收音訊資料，該音訊資料包括描述音訊訊號的幅度譜資料；將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計；使用相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料；及基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號。

實例22包括實例21的非暫時性電腦可讀取媒體，其中該神經網路被配置為基於該音訊資料來產生第一音訊訊號估計，並且其中該指令在被執行時亦使得該一或多個處理器基於該第一音訊訊號估計來產生該初始相位估計。

實例23包括實例22的非暫時性電腦可讀取媒體，其中該指令在被執行時使得該一或多個處理器：對該第一音訊訊號估計執行短時傅立葉轉換（STFT）操作以決定該初始相位估計。

實例24包括實例21至23中任一項的非暫時性電腦可讀取媒體，其中該指令在被執行時亦使得該一或多個處理器：基於該初始相位估計和該幅度譜來執行逆短時傅裡葉變換（ISTFT）操作，以產生第二音訊訊號估計；對該第二音訊訊號估計執行短時傅立葉轉換（STFT）以決定該目標相位；及基於該目標相位和該幅度譜來執行ISTFT操作以重構該音訊訊號。

實例25包括實例21至24中任一項的非暫時性電腦可讀取媒體，其中與該幅度譜的第一部分相關聯的第一訊窗重疊於與該幅度譜的第二部分相關聯的第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的第一取樣的幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的第二取樣的幅度譜。

實例26包括實例21至25中任一項的非暫時性電腦可讀取媒體，其中該第一訊窗的至少一個取樣與該第二訊窗的至少一個取樣重疊。

實例27包括實例21至26中任一項的非暫時性電腦可讀取媒體，其中該指令在被執行時亦使得該一或多個處理器：提供與該經重構音訊訊號相關聯的第一經重構資料取樣作為該神經網路的輸入，以產生用於該音訊訊號的一或多個第二取樣的相位估計。

實例28包括實例21至27中任一項的非暫時性電腦可讀取媒體，其中該神經網路包括自回歸神經網路。

實例29包括實例21至28中任一項的非暫時性電腦可讀取媒體，其中該相位估計演算法對應於Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的五次反覆運算或更少次反覆運算而被決定。

實例30包括實例21至29中任一項的非暫時性電腦可讀取媒體，其中該音訊資料對應於從音訊解碼器接收到的經解量化的值。

實例31包括一種裝置，該裝置包括：用於接收音訊資料的部件，該音訊資料包括描述音訊訊號的幅度譜資料；用於將該音訊資料作為輸入提供給神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計的部件；用於使用相位估計演算法、基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料的部件；及用於基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的目標相位並且基於該幅度譜來重構該音訊訊號的部件。

實例32包括實例31的裝置，亦包括：用於基於該音訊資料、使用該神經網路來產生基於該音訊資料的第一音訊訊號估計的部件；及用於基於該第一音訊訊號估計來產生該初始相位估計的部件。

實例33包括實例31至32中任一項的裝置，其中產生該初始相位估計包括對該第一音訊訊號估計執行短時傅裡葉變換（STFT）操作。

實例34包括實例31至33中任一項的裝置，亦包括：用於基於該初始相位估計和該幅度譜來執行逆短時傅裡葉變換（ISTFT）操作以產生第二音訊訊號估計的部件；用於對該第二音訊訊號估計執行短時傅立葉轉換（STFT）以決定該目標相位的部件；及用於基於該目標相位和該幅度譜來執行ISTFT操作以重構該音訊訊號的部件。

實例35包括實例31至34中任一項的裝置，其中與該幅度譜的第一部分相關聯的第一訊窗重疊於與該幅度譜的第二部分相關聯的第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的第一取樣的幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的第二取樣的幅度譜。

實例36包括實例31至35中任一項的裝置，其中該第一訊窗的至少一個取樣與該第二訊窗的至少一個取樣重疊。

實例37包括實例31至36中任一項的裝置，亦包括：用於提供與該經重構音訊訊號相關聯的第一經重構資料取樣作為該神經網路的輸入以產生用於該音訊訊號的一或多個第二取樣的相位估計的部件。

實例38包括實例31至37中任一項的裝置，其中該神經網路包括自回歸神經網路。

實例39包括實例31至38中任一項的裝置，其中該相位估計演算法對應於Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的五次反覆運算或更少次反覆運算而被決定。

實例40包括實例31至39中任一項的裝置，其中該音訊資料對應於從音訊解碼器接收到的經解量化的值。

本發明所屬領域中具有通常知識者將進一步瞭解，結合本文所揭示的實施方案而描述的各種說明性邏輯區塊、配置、模組、電路和演算法步驟可以被實施為電子硬體、由處理器執行的電腦軟體、或者兩者的組合。各種說明性的部件、方塊、配置、模組、電路和步驟已經在上面通常按照它們的功能性進行了描述。這種功能是被實現為硬體還是處理器可執行的指令取決於特定應用和施加在整個系統上的設計約束。本發明所屬領域中具有通常知識者可以針對每個特定應用以不同的方式實現所描述的功能，這種實現決策不應被解釋為導致背離本案的範疇。

結合本文所揭示的實施方案而描述的方法或演算法的步驟可以直接體現於硬體中、由處理器執行的軟體模組中、或者兩者的組合中。軟體模組可以常駐在隨機存取記憶體（RAM）、快閃記憶體、唯讀記憶體（ROM）、可程式設計唯讀記憶體（PROM）、可抹除可程式設計唯讀記憶體（EPROM）、電子可抹除可程式設計唯讀記憶體（EEPROM）、暫存器、硬碟、可移除磁碟、光碟唯讀記憶體（CD-ROM）或者本發明所屬領域已知的任何其他形式的非瞬態儲存媒體中。示例性儲存媒體耦合到處理器，使得處理器可以從該儲存媒體讀取資訊並將資訊寫入到該儲存媒體。在替代方案中，儲存媒體可以整合到處理器。處理器和儲存媒體可以常駐在特殊應用積體電路（ASIC）中。ASIC可以常駐在計算設備或使用者終端中。在替代方案中，處理器和儲存媒體可以作為個別部件常駐在計算設備或使用者終端中。

提供了所揭示態樣的以上描述以使得本發明所屬領域中具有通常知識者能夠實現或使用所揭示的態樣。對於本發明所屬領域中具有通常知識者來說，對這些態樣的各種修改皆是顯而易見的，並且本文中所定義的原理在不背離本案的範疇的情況下可以被應用於其他態樣。因此，本案不意欲限於本文所示出的態樣，而是意欲被賦予與由所附請求項所定義的原理和新穎特徵一致的儘可能寬的範疇。

100:系統 102:神經網路 104:音訊訊號重構單元 106:目標相位估計器 108:相位估計演算法 110:音訊資料 114:幅度譜資料 116:初始相位估計 118:目標相位 120:經重構音訊訊號 130:第一音訊訊號估計 140:原始幅度譜 142:第二音訊訊號估計 200:系統 202:相位選擇器 204:幅度譜選擇器 206:逆變換操作單元 208:變換操作單元 250:單次反覆運算 300:系統 302:第二延遲 400:系統 402:畫面播放速率單元 404:取樣速率單元 408:濾波器 410:變換操作單元 412:第一延遲 500:方法 502:方塊 504:方塊 506:方塊 508:方塊 600:實施方式 602:設備 604:輸入介面 606:輸出介面 610:處理器 620:記憶體 622:記憶體 700:實施方式 702:行動設備 704:顯示螢幕 710:麥克風 720:揚聲器 800:實施方式 802:頭戴式耳機設備 810:麥克風 820:耳機 900:實施方式 902:可穿戴電子設備 904:顯示螢幕 910:麥克風 920:揚聲器 1000:實施方式 1002:無線揚聲器和嗓音啟動設備 1010:麥克風 1020:揚聲器 1100:實施方式 1102:相機設備 1110:麥克風 1120:揚聲器 1200:實施方式 1202:頭戴式耳機 1210:麥克風 1220:揚聲器 1300:實施方式 1302:載具 1310:麥克風 1320:揚聲器 1400:實施方式 1402:載具 1410:麥克風 1420:揚聲器 1500:設備 1502:數位類比轉換器（DAC） 1504:類比數位轉換器（ADC） 1506:處理器 1508:語音和音樂解碼器 1510:處理器 1522:系統級封裝或片上系統設備 1526:顯示控制器 1528:顯示器 1530:輸入裝置 1534:CODEC 1536:嗓音解碼器編碼器 1538:聲碼器解碼器 1540:數據機 1544:電源 1550:收發器 1556:指令 1586:記憶體 1590:天線 1594:麥克風 1596:揚聲器 e _t:類比激勵訊號 S _t:音訊取樣

圖1是根據本案的一些實例的被配置為使用神經網路和相位估計演算法來重構音訊訊號的系統的特定說明性態樣的方塊圖。

圖2是根據本案的一些實例的被配置為使用相位估計演算法以基於來自神經網路的初始相位估計來重構音訊訊號的系統的特定說明性態樣的方塊圖。

圖3是根據本案的一些實例的被配置為基於經重構音訊訊號來向神經網路提供回饋的系統的特定說明性態樣的方塊圖。

圖4是根據本案的一些實例的被配置為產生用於相位估計演算法的初始相位估計的系統的特定說明性態樣的方塊圖。

圖5是根據本案的一些實例的重構音訊訊號的方法的特定實施方式的圖。

圖6是積體電路中的解碼設備的部件的特定實例的圖。

圖7是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的行動設備的圖。

圖8是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的頭戴式耳機的圖。

圖9是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的可穿戴電子設備的圖。

圖10是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的嗓音控制（voice-controlled）的揚聲器系統的圖。

圖11是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的相機的圖。

圖12是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的頭戴式耳機（諸如虛擬實境、混合現實或增強現實頭戴式耳機）的圖。

圖13是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的載具的第一實例的圖。

圖14是根據本案的一些實例的包括被配置為使用神經網路和相位估計演算法來重構音訊訊號的電路的載具的第二實例的圖。

圖15是根據本案的一些實例的可操作以使用神經網路和相位估計演算法來重構音訊訊號的設備的特定說明性實例的方塊圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

100:系統

102:神經網路

104:音訊訊號重構單元

106:目標相位估計器

108:相位估計演算法

110:音訊資料

114:幅度譜資料

116:初始相位估計

118:目標相位

120:經重構音訊訊號

130:第一音訊訊號估計

140:原始幅度譜

142:第二音訊訊號估計

Claims

一種設備，包括：一記憶體；及一或多個處理器，耦合到該記憶體並且可操作地被配置為：接收音訊資料，該音訊資料包括描述一音訊訊號的幅度譜資料；將該音訊資料作為輸入提供給一神經網路以產生用於該音訊訊號的一或多個取樣的一初始相位估計；使用一相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的一幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料；及基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的一目標相位並且基於該幅度譜來重構該音訊訊號。
根據請求項1之方法，其中該神經網路被配置為基於該音訊資料來產生一第一音訊訊號估計，並且其中該等指令在被執行時亦使得該一或多個處理器基於該第一音訊訊號估計來產生該初始相位估計。
根據請求項2之方法，其中該一或多個處理器可操作地被配置為對該第一音訊訊號估計執行一短時傅立葉轉換（STFT）操作以決定該初始相位估計。
根據請求項1之方法，其中該一或多個處理器可操作地被配置為：基於該初始相位估計和該幅度譜來執行一逆短時傅裡葉變換（ISTFT）操作，以產生一第二音訊訊號估計；對該第二音訊訊號估計執行一短時傅立葉轉換（STFT）以決定該目標相位；及基於該目標相位和該幅度譜來執行一ISTFT操作以重構該音訊訊號。
根據請求項1之方法，其中與該幅度譜的一第一部分相關聯的一第一訊窗重疊於與該幅度譜的一第二部分相關聯的一第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的一第一取樣的一幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的一第二取樣的一幅度譜。
根據請求項5之方法，其中該第一訊窗的至少一個取樣與該第二訊窗的至少一個取樣重疊。
根據請求項1之方法，其中該一或多個處理器可操作地被配置為：提供與該經重構音訊訊號相關聯的一第一經重構資料取樣作為該神經網路的一輸入，以產生用於該音訊訊號的一或多個第二取樣的一相位估計。
根據請求項1之方法，其中該神經網路包括一自回歸神經網路。
根據請求項1之方法，其中該相位估計演算法對應於一Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的五次反覆運算或更少次反覆運算而被決定。
根據請求項1之方法，其中該音訊資料對應於從音訊解碼器接收到的經解量化的值。
一種方法，包括以下步驟：接收音訊資料，該音訊資料包括描述一音訊訊號的幅度譜資料；將該音訊資料作為輸入提供給一神經網路以產生用於該音訊訊號的一或多個取樣的一初始相位估計；使用一相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的一幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料；及基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的一目標相位並且基於該幅度譜來重構該音訊訊號。
根據請求項11之方法，亦包括以下步驟：基於該音訊資料，使用該神經網路來產生基於該音訊資料的一第一音訊訊號估計；及基於該第一音訊訊號估計來產生該初始相位估計。
根據請求項12之方法，其中產生該初始相位估計包括對該第一音訊訊號估計執行一短時傅立葉轉換（STFT）操作。
根據請求項11之方法，亦包括以下步驟：基於該初始相位估計和該幅度譜來執行一逆短時傅裡葉變換（ISTFT）操作，以產生第二音訊訊號估計；對該第二音訊訊號估計執行一短時傅立葉轉換（STFT）以決定該目標相位；及基於該目標相位和該幅度譜來執行一ISTFT操作以重構該音訊訊號。
根據請求項11之方法，其中與該幅度譜的一第一部分相關聯的一第一訊窗重疊於與該幅度譜的一第二部分相關聯的一第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的一第一取樣的一幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的一第二取樣的一幅度譜。
根據請求項15之方法，其中該第一訊窗的一個取樣與該第二訊窗的一個取樣重疊。
根據請求項11之方法，亦包括以下步驟：提供與該經重構音訊訊號相關聯的一第一經重構資料取樣作為該神經網路的一輸入，以產生用於該音訊訊號的一或多個第二取樣的一相位估計。
根據請求項11之方法，其中該神經網路包括一自回歸神經網路。
根據請求項11之方法，其中該相位估計演算法對應於一Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的五次反覆運算或更少次反覆運算而被決定。
根據請求項11之方法，其中使用該相位估計演算法與該神經網路來重構該音訊訊號使得該神經網路能夠為一低複雜度神經網路。
一種非暫時性電腦可讀取媒體，包括指令，該等指令在由一或多個處理器執行時使得該一或多個處理器：接收音訊資料，該音訊資料包括描述一音訊訊號的幅度譜資料；將該音訊資料作為輸入提供給一神經網路以產生用於該音訊訊號的一或多個取樣的一初始相位估計；使用一相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的一幅度譜來決定用於該音訊訊號的該一或多個取樣的目標相位資料；及基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的一目標相位並且基於該幅度譜來重構該音訊訊號。
根據請求項21之非暫時性電腦可讀取媒體，其中該神經網路被配置為基於該音訊資料來產生一第一音訊訊號估計，並且其中該等指令在被執行時亦使得該一或多個處理器基於該第一音訊訊號估計來產生該初始相位估計。
根據請求項22之非暫時性電腦可讀取媒體，其中該等指令在被執行時使得該一或多個處理器對該第一音訊訊號估計執行一短時傅立葉轉換（STFT）操作以決定該初始相位估計。
根據請求項21之非暫時性電腦可讀取媒體，其中該等指令在被執行時亦使得該一或多個處理器：基於該初始相位估計和該幅度譜來執行一逆短時傅裡葉變換（ISTFT）操作，以產生一第二音訊訊號估計；對該第二音訊訊號估計執行一短時傅立葉轉換（STFT）以決定該目標相位；及基於該目標相位和該幅度譜來執行ISTFT操作以重構該音訊訊號。
根據請求項21之非暫時性電腦可讀取媒體，其中與該幅度譜的一第一部分相關聯的一第一訊窗重疊於與該幅度譜的一第二部分相關聯的一第二訊窗，其中該幅度譜的該第一部分對應於該一或多個取樣中的一第一取樣的一幅度譜，以及其中該幅度譜的該第二部分對應於該一或多個取樣中的一第二取樣的一幅度譜。
根據請求項21之非暫時性電腦可讀取媒體，其中該神經網路包括一自回歸神經網路。
根據請求項21之非暫時性電腦可讀取媒體，其中該相位估計演算法對應於一Griffin-Lim演算法，並且其中該目標相位資料使用該Griffin-Lim演算法的五次反覆運算或更少次反覆運算而被決定。
根據請求項21之非暫時性電腦可讀取媒體，其中該音訊資料對應於從一音訊解碼器接收到的經解量化的值。
一種裝置，包括：用於接收音訊資料的部件，該音訊資料包括描述一音訊訊號的幅度譜資料；用於將該音訊資料作為輸入提供給一神經網路以產生用於該音訊訊號的一或多個取樣的初始相位估計的部件；用於使用一相位估計演算法，基於該初始相位估計以及該音訊訊號的該一或多個取樣的、由該幅度譜資料指示的一幅度譜來決定用於該音訊訊號的該一或多個取樣的一目標相位資料的部件；及用於基於該音訊訊號的該一或多個取樣的、由該目標相位資料指示的一目標相位並且基於該幅度譜來重構該音訊訊號的部件。
根據請求項29之裝置，其中該音訊資料對應於從一音訊解碼器接收到的經解量化的值。