TW201905900A

TW201905900A - 時延估計方法及裝置

Info

Publication number: TW201905900A
Application number: TW107120261A
Authority: TW
Inventors: 艾雅蘇謨特; 李海婷; 苗磊
Original assignee: 大陸商華為技術有限公司
Priority date: 2017-06-29
Filing date: 2018-06-13
Publication date: 2019-02-01
Also published as: ES2893758T3; WO2019001252A1; CA3068655A1; AU2018295168B2; KR20240042232A; US20200137504A1; EP4235655A2; EP3989220B1; KR102428951B1; AU2022203996A1; KR102299938B1; TWI666630B; JP2024036349A; RU2759716C2; KR20200017518A; SG11201913584TA; KR20230074603A; AU2022203996B2; AU2023286019A1; EP3633674A4

Abstract

本申請公開了一種時延估計方法及裝置，屬於音訊處理領域。該方法包括：確定當前幀的多聲道信號的互相關係數；根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值；確定當前幀的自我調整窗函數；根據所述當前幀的時延軌跡估計值和所述當前幀的自我調整窗函數，對所述互相關係數進行加權，得到加權後的互相關係數；根據所述加權後的互相關係數確定所述當前幀的聲道間時間差；解決了互相關係數被過度平滑或平滑不足的問題，提高了估計聲道間時間差的準確性。

Description

時延估計方法及裝置

本申請涉及音訊處理領域，特別涉及一種時延估計方法及裝置。

相對於單聲道信號來說，由於多聲道信號（如立體聲信號）更具有方位感和分佈感，因此，備受人們青睞。多聲道信號是由至少兩路單聲道信號組成的。例如，立體聲信號是兩路單聲道信號，即左聲道信號和右聲道信號組成的。對立體聲信號進行編碼，可以是對立體聲信號的左聲道信號和右聲道信號進行時域下混處理得到兩路信號，再對得到的兩路信號進行編碼，這兩路信號分別為：主要聲道信號和次要聲道信號。其中，主要聲道信號用於表徵立體聲信號中的兩路單聲道信號之間的相關資訊；次要聲道信號用於表徵立體聲信號中的兩路單聲道信號之間的差異資訊。

如果兩路單聲道信號之間的時延越小，則主要聲道信號越大，立體聲信號的編碼效率越高，編解碼品質越好；反之，如果兩路的單聲道信號之間的時延越大，則次要聲道信號越大，立體聲信號的編碼效率越低，編解碼品質越差。為了保證編解碼得到的立體聲信號有較好的效果，需要估計立體聲信號中的兩路單聲道信號之間的時延，即聲道間時間差（ITD, Inter-channle Time Difference），根據估計出的聲道間時間差通過時延對齊處理從而使得兩路單聲道信號之間對齊，增強主要聲道信號。

一種典型的時域上的時延估計方法，包括：根據至少一個過去幀的互相關係數，對當前幀的立體聲信號的互相關係數進行平滑處理，得到平滑後的互相關係數；從該平滑後的互相關係數中搜索最大值，將該最大值對應的索引值確定為當前幀的聲道間時間差。其中，當前幀的平滑因數是根據輸入信號的能量或者其它特徵自我調整調整得到的一個數值。互相關係數，用於指示不同的聲道間時間差對應的時延調整後兩路單聲道信號的互相關程度，其中，互相關係數也可以稱作互相關函數。

音訊編碼設備採用統一的標準（當前幀的平滑因數），對當前幀的所有互相關值進行平滑，可能會導致一部分互相關值被過度平滑；和/或，另一部分互相關值平滑不足的問題。

為瞭解決音訊編碼設備對當前幀的互相關係數中的互相關值過度平滑，或者平滑不足，導致音訊編碼設備估計出的聲道間時間差不準確的問題，本申請實施例提供了一種時延估計方法及裝置。

第一方面，提供了一種時延估計方法，該方法包括：確定當前幀的多聲道信號的互相關係數；根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值；確定當前幀的自我調整窗函數；根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權，得到加權後的互相關係數；根據加權後的互相關係數確定當前幀的聲道間時間差。

通過計算當前幀的時延軌跡估計值來預測當前幀的聲道間時間差；根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權；由於自我調整窗函數是升餘弦窗，具有相對地放大中間部分抑制邊緣部分的功能，這就使得根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權時，離時延軌跡估計值越近，加權係數越大，避免了對第一互相係數過度平滑的問題；離時延軌跡估計值越遠，加權係數越小，避免了對第二互相關係數平滑不足的問題；這樣，實現了通過自我調整窗函數自我調整地抑制互相關係數中遠離時延軌跡估計值的索引值對應的互相關值，提高了從加權後的互相關係數中確定聲道間時間差的準確性。其中，第一互相關係數指互相關係數中時延軌跡估計值附近的索引值對應的互相關值，第二互相關係數指互相關係數中遠離時延軌跡估計值的索引值對應的互相關值。

結合第一方面，在第一方面的第一種實現中，確定當前幀的自我調整窗函數，包括：根據第n-k幀的平滑後的聲道間時間差估計偏差，確定當前幀的自我調整窗函數，0＜k＜n。其中，當前幀為第n幀。

通過第n-k幀的平滑後的聲道間時間差估計偏差，確定當前幀的自我調整窗函數，實現了根據該平滑後的聲道間時間差估計偏差，調整自我調整窗函數的形狀，避免了由於當前幀時延軌跡估計的誤差導致生成的自我調整窗函數不準確的問題，提高了生成自我調整窗函數的準確性。

結合第一方面或第一方面的第一種實現，在第一方面的第二種實現中，確定當前幀的自我調整窗函數，包括：根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦寬度參數；根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦高度偏移量；根據第一升餘弦寬度參數和第一升餘弦高度偏移量，確定當前幀的自我調整窗函數。

由於當前幀的前一幀的多聲道信號與當前的幀的多聲道信號之間關聯性較大，因此，通過根據該當前幀的前一幀的平滑後的聲道間時間差估計偏差，確定的前幀的自我調整窗函數，提高了計算前幀的自我調整窗函數的準確性。

結合第一方面的第二種實現，在第一方面的第三種實現中，第一升餘弦寬度參數的計算公式如下： win_width1=TRUNC（width_par1*（A*L_NCSHIFT_DS+1）） width_par1=a_width1*smooth_dist_reg+b_width1 其中， a_ width1=(xh_width1-xl_width1)/(yh_dist1-yl_dist1) b_width1= xh_width1- a_ width1* yh_dist1

其中，win_width1為第一升餘弦寬度參數；TRUNC表示對數值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；A為預先設定的常數，A大於等於4；xh_width1為第一升餘弦寬度參數的上限值；xl_width1為第一升餘弦寬度參數的下限值；yh_dist1為第一升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差；yl_dist1為第一升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差；smooth_dist_reg為當前幀的前一幀的平滑後的聲道間時間差估計偏差；xh_width1、xl_width1、yh_dist1和yl_dist1均為正數。

結合第一方面的第三種實現，在第一方面的第四種實現中， width_par1=min(width_par1，xh_width1)； width_par1=max(width_par1，xl_width1)；

其中，min表示取最小值，max表示取最大值。

通過在width_par 1大於第一升餘弦寬度參數的上限值時，將width_par 1限定為該第一升餘弦寬度參數的上限值；在width_par 1小於第一升餘弦寬度參數的下限值時，將width_par 1限定為該第一升餘弦寬度參數的下限值，保證width_par 1的值不會超過升餘弦寬度參數的正常取值範圍，從而保證計算出的自我調整窗函數的準確性。

結合第一方面的第二種實現至第四種實現中的任意一種，在第一方面的第五種實現中，第一升餘弦高度偏移量的計算公式如下： win_bias1=a_bias1*smooth_dist_reg+b_bias1 其中，a_bias1=(xh_bias1-xl_bias1)/ (yh_dist2-yl_dist2) b_bias1= xh_bias1- a_bias1* yh_dist2

其中，win_bias1為第一升餘弦高度偏移量；xh_bias1為第一升餘弦高度偏移量的上限值；xl_ bias1為第一升餘弦高度偏移量的下限值；yh_dist2為第一升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差；yl_dist2為第一升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差；smooth_dist_reg為當前幀的前一幀的平滑後的聲道間時間差估計偏差；yh_dist2、yl_dist2、xh_ bias1和xl_ bias1均為正數。

結合第一方面的第五種實現，在第一方面的第六種實現中， win_bias1=min(win_bias1，xh_bias1)； win_bias1=max(win_bias1, xl_bias1)；

其中，min表示取最小值，max表示取最大值。

通過在win_bias1大於第一升餘弦高度偏移量的上限值時，將win_bias1限定為該第一升餘弦高度偏移量的上限值；在win_bias1小於第一升餘弦高度偏移量的下限值時，將win_bias1限定為該第一升餘弦高度偏移量的下限值，保證win_bias1的值不會超過升餘弦高度偏移量的正常取值範圍，保證計算出的自我調整窗函數的準確性。

結合第一方面的第二種實現至第五種實現中的任意一種，在第一方面的第七種實現中， yh_dist2= yh_dist1；yl_dist2= yl_dist1。

結合第一方面、第一方面的第一種實現至第七種實現中的任意一種，在第一方面的第八種實現中，當0≤k≤TRUNC(A*L_NCSHIFT_DS/2)-2*win_width1-1時， loc_weight_win(k)=win_bias1 當TRUNC(A*L_NCSHIFT_DS/2) -2*win_width1 ≤ k ≤ TRUNC(A*L_NCSHIFT_DS/2) + 2*win_width1-1時， loc_weight_win(k)=0.5*（1+ win_bias1）+0.5*（1- win_bias1）*cos（π*（k- TRUNC(A*L_NCSHIFT_DS/2)）/（2* win_width1））當TRUNC(A*L_NCSHIFT_DS/2)+2*win_width1≤k≤A* L_NCSHIFT_DS時， loc_weight_win(k)= win_bias1

其中，loc_weight_win(k)，k = 0,1,…, A* L_NCSHIFT_DS，用於表徵自我調整窗函數；A為預設的常數，且A大於等於4，L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width1為第一升餘弦寬度參數；win_bias1為第一升餘弦高度偏移量。

結合第一方面的第一種實現至第八種實現中的任意一種，在第一方面的第九種實現中，根據加權後的互相關係數確定當前幀的聲道間時間差之後，還包括：根據當前幀的前一幀的平滑後的聲道間時間差估計偏差、當前幀的時延軌跡估計值和當前幀的聲道間時間差，計算當前幀的平滑後的聲道間時間差估計偏差。

通過在確定出當前幀的聲道間時間差之後，計算當前幀的平滑後的聲道間時間差估計偏差；在確定下一幀的聲道間時間差時，能夠使用該當前幀的平滑後的聲道間時間差估計偏差，保證了確定下一幀的聲道間時間差的準確性。

結合第一方面的第九種實現，在第一方面的第十種實現中，當前幀的平滑後的聲道間時間差估計偏差，通過如下計算公式計算獲得： smooth_dist_reg_update=（1-γ）*smooth_dist_reg+γ*dist_reg’ dist_reg’=|reg_prv_corr-cur_itd|

其中，smooth_dist_reg_update為當前幀的平滑後的聲道間時間差估計偏差；γ為第一平滑因數，0＜γ＜1；smooth_dist_reg為當前幀的前一幀的平滑後的聲道間時間差估計偏差；reg_prv_corr為當前幀的時延軌跡估計值；cur_itd為當前幀的聲道間時間差。

結合第一方面，在第一方面的第十一種實現中，根據互相關係數，確定當前幀的聲道間時間差的初始值；根據當前幀的時延軌跡估計值和當前幀的聲道間時間差的初始值，計算當前幀的聲道間時間差估計偏差；根據當前幀的聲道間時間差估計偏差，確定當前幀的自我調整窗函數。

通過根據當前幀的聲道間時間差的初始值來確定當前幀的自我調整窗函數，實現了無需緩存第n個過去幀的平滑後的聲道間時間差估計偏差，就能得到當前幀的自我調整窗函數，節省了存儲資源。

結合第一方面的第十一種實現，在第一方面的第十二種實現中，當前幀的聲道間時間差估計偏差通過如下計算公式計算獲得： dist_reg=|reg_prv_corr-cur_itd_init|

其中，dist_reg 為當前幀的聲道間時間差估計偏差，reg_prv_corr為當前幀的時延軌跡估計值，cur_itd_init為當前幀的聲道間時間差的初始值。

結合第一方面的第十一種實現或第十二種實現，在第一方面的第十三種實現中，根據當前幀的聲道間時間差估計偏差，計算第二升餘弦寬度參數；根據當前幀的聲道間時間差估計偏差，計算第二升餘弦高度偏移量；根據第二升餘弦寬度參數和第二升餘弦高度偏移量，確定當前幀的自我調整窗函數。

可選地，第二升餘弦寬度參數的計算公式如下： win_width2=TRUNC（width_par2*（A*L_NCSHIFT_DS+1）） width_par2=a_width2* dist_reg+b_width2 其中，a_ width2=(xh_width2-xl_width2)/(yh_dist3-yl_dist3) b_width2= xh_width2- a_ width2* yh_dist3

其中，win_width2為第二升餘弦寬度參數；TRUNC表示對數值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；A為預先設定的常數，A大於等於4且A*L_NCSHIFT_DS+1為大於零的正整數；xh_width2為第二升餘弦寬度參數的上限值；xl_width2為第二升餘弦寬度參數的下限值；yh_dist3為第二升餘弦寬度參數的上限值對應的聲道間時間差估計偏差；yl_dist3為第二升餘弦寬度參數的下限值對應的聲道間時間差估計偏差； dist_reg為聲道間時間差估計偏差；xh_width2、xl_width2、yh_dist3和yl_dist3均為正數。

可選地，第二升餘弦寬度參數滿足， width_par2=min(width_par2，xh_width2)； width_par2=max(width_par2，xl_width2)；

其中，min表示取最小值，max表示取最大值。

通過在width_par 2大於第二升餘弦寬度參數的上限值時，將width_par 2限定為該第二升餘弦寬度參數的上限值；在width_par 2小於第二升餘弦寬度參數的下限值時，將width_par 2限定為該第二升餘弦寬度參數的下限值，保證width_par 2的值不會超過升餘弦寬度參數的正常取值範圍，從而保證計算出的自我調整窗函數的準確性。

可選地，第二升餘弦高度偏移量的計算公式如下： win_bias2=a_bias2* dist_reg+b_bias2 其中，a_bias2=(xh_bias2-xl_bias2)/ (yh_dist4-yl_dist4) b_bias2= xh_bias2- a_bias2* yh_dist4

其中，win_bias2為第二升餘弦高度偏移量；xh_bias2為第二升餘弦高度偏移量的上限值；xl_ bias2為第二升餘弦高度偏移量的下限值；yh_dist4為第二升餘弦高度偏移量的上限值對應的聲道間時間差估計偏差；yl_dist4為第二升餘弦高度偏移量的下限值對應的聲道間時間差估計偏差；dist_reg為聲道間時間差估計偏差；yh_dist4、yl_dist4 、xh_ bias2和xl_ bias2均為正數。

可選地，第二升餘弦高度偏移量滿足， win_bias2=min(win_bias2，xh_bias2)； win_bias2=max(win_bias2, xl_bias2)；

其中，min表示取最小值，max表示取最大值。

通過在win_bias2大於第二升餘弦高度偏移量的上限值時，將win_bias2限定為該第二升餘弦高度偏移量的上限值；在win_bias2小於第二升餘弦高度偏移量的下限值時，將win_bias2限定為該第二升餘弦高度偏移量的下限值，保證win_bias2的值不會超過升餘弦高度偏移量的正常取值範圍，保證計算出的自我調整窗函數的準確性。

可選地，yh_dist4= yh_dist3；yl_dist4= yl_dist3。

可選地，自我調整窗函數通過下述公式表示：

當0≤k≤TRUNC(A*L_NCSHIFT_DS/2)-2*win_width2-1時， loc_weight_win(k)=win_bias2 當TRUNC(A*L_NCSHIFT_DS/2)-2*win_width2≤k≤TRUNC(A*L_NCSHIFT_DS/2)+2*win_width2-1時， loc_weight_win(k)=0.5*（1+ win_bias2）+0.5*（1- win_bias2）*cos（π*（k- TRUNC(A*L_NCSHIFT_DS/2)）/（2* win_width2））當TRUNC(A*L_NCSHIFT_DS/2)+2*win_width2≤k≤A* L_NCSHIFT_DS時， loc_weight_win(k)= win_bias2

其中，loc_weight_win(k)，k = 0,1,…, A* L_NCSHIFT_DS，用於表徵自我調整窗函數；A為預先設定的常數，A大於等於4， L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width2為第二升餘弦寬度參數；win_bias為第二升餘弦高度偏移量。

結合第一方面、第一方面的第一種實現至第十三種實現中的任意一種，在第一方面的第十四種實現中加權後的互相關係數，通過下述公式表示： c_weight(x)=c(x)* loc_weight_win(x-TRUNC(reg_prv_corr)+ TRUNC(A*L_NCSHIFT_DS/2)-L_NCSHIFT_DS)

其中，c_weight(x)為加權後的互相關係數；c(x)為互相關係數；loc_weight_win為當前幀的自我調整窗函數；TRUNC表示對數值進行四捨五入取整；reg_prv_corr為當前幀的時延軌跡估計值；x為大於等於零且小於等於2*L_NCSHIFT_DS的整數；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值。

結合第一方面、第一方面的第一種實現至第十四種實現中的任意一種，在第一方面的第十五種實現中，確定當前幀的自我調整窗函數之前，還包括：根據當前幀的前一幀的編碼參數，確定當前幀的自我調整窗函數的自我調整參數；其中，編碼參數用於指示當前幀的前一幀的多聲道信號的類型，或者，所述編碼參數用於指示經過時域下混處理的當前幀的前一幀的多聲道信號的類型；自我調整參數用於確定當前幀的自我調整窗函數。

由於當前幀的自我調整窗函數隨著當前幀的多聲道信號的類型的不同，需要自我調整地變化，從而保證計算出的當前幀的聲道間時間差的準確性，而當前幀的多聲道信號的類型與當前幀的前一幀的多聲道信號的類型相同的概率較大，因此，通過根據當前幀的前一幀的編碼參數，確定當前幀的自我調整窗函數的自我調整參數，在無需額外增加計算複雜度的同時提高了確定出的自我調整窗函數的準確性。

結合第一方面、第一方面的第一種實現至第十五種實現中的任意一種，在第一方面的第十六種實現中，根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值，包括：根據緩存的至少一個過去幀的聲道間時間差資訊，通過線性回歸方法進行時延軌跡估計，確定當前幀的時延軌跡估計值。

結合第一方面、第一方面的第一種實現至第十五種實現中的任意一種，在第一方面的第十七種實現中，根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值，包括：根據緩存的至少一個過去幀的聲道間時間差資訊，通過加權線性回歸方法進行時延軌跡估計，確定當前幀的時延軌跡估計值。

結合第一方面、第一方面的第一種實現至第十七種實現中的任意一種，在第一方面的第十八種實現中，根據加權後的互相關係數確定當前幀的聲道間時間差之後，還包括：對緩存的至少一個過去幀的聲道間時間差資訊進行更新，至少一個過去幀的聲道間時間差資訊為至少一個過去幀的聲道間時間差平滑值或至少一個過去幀的聲道間時間差。

通過對緩存至少一個過去幀的聲道間時間差資訊進行更新，在計算下一幀的聲道間時間差時，能夠根據更新後的時延差資訊進行計算下一幀的時延軌跡估計值，從而提高了計算下一幀的聲道間時間差的準確性。

結合第一方面的第十八種實現，在第一方面的第十九種實現中，緩存的至少一個過去幀的聲道間時間差資訊為至少一個過去幀的聲道間時間差平滑值，對緩存的至少一個過去幀的聲道間時間差資訊進行更新，包括：根據當前幀的時延軌跡估計值和當前幀的聲道間時間差，確定當前幀的聲道間時間差平滑值；根據當前幀的聲道間時間差平滑值，對緩存的至少一個過去幀的聲道間時間差平滑值進行更新。

結合第一方面的第十九種實現，在第一方面的第二十種實現中，當前幀的聲道間時間差平滑值，通過如下計算公式獲得： cur_itd_smooth=φ*reg_prv_corr+(1-φ)*cur_itd

其中，cur_itd_smooth為當前幀的聲道間時間差平滑值；φ為第二平滑因數，reg_prv_corr為當前幀的時延軌跡估計值，cur_itd為當前幀的聲道間時間差；φ為大於等於0且小於等於1的常數。

結合第一方面的第十八種實現至第二十種實現中的任意一種，在第一方面的第二十一種實現中，對緩存的至少一個過去幀的聲道間時間差資訊進行更新，包括：當當前幀的前一幀的語音啟動檢測結果為啟動幀或當前幀的語音啟動檢測結果為啟動幀時，對緩存的至少一個過去幀的聲道間時間差資訊進行更新。

由於在當前幀的前一幀的語音啟動檢測結果為啟動幀或當前幀的語音啟動檢測結果為啟動幀時，說明當前幀的多聲道信號是啟動幀的概率較大，在當前幀的多聲道信號是啟動幀時，當前幀的聲道間時間差資訊有效性較高，因此，通過據當前幀的前一幀的語音啟動檢測結果或當前幀的語音啟動檢測結果，確定是否對緩存的至少一個過去幀的聲道間時間差資訊進行更新，提高了緩存的至少一個過去幀的聲道間時間差資訊的有效性。

結第一方面的第十七種實現至第二十一種實現中的至少一種，在第一方面的第二十二種實現中，根據加權後的互相關係數確定當前幀的聲道間時間差之後，還包括：對緩存的至少一個過去幀的加權係數進行更新，至少一個過去幀的加權係數是加權線性回歸方法中的係數，加權線性回歸方法用於確定當前幀的時延軌跡估計值。

在通過加權線性回歸方法確定當前幀的時延軌跡估計值時，通過對緩存的至少一個過去幀的加權係數進行更新，在計算下一幀的時延軌跡估計值時，能夠根據更新後的加權係數進行計算，提高了計算下一幀的時延軌跡估計值的準確性。

結合第一方面的第二十二種實現，在第一方面的第二十三種實現中，在當前幀的自我調整窗函數是根據當前幀的前一幀的平滑後的聲道間時間差確定的時，對緩存的至少一個過去幀的加權係數進行更新，包括：根據當前幀的平滑後的聲道間時間差估計偏差，計算當前幀的第一加權係數；根據當前幀的第一加權係數，對緩存的至少一個過去幀的第一加權係數進行更新。

結合第一方面的第二十三種實現，在第一方面的第二十四種實現中，當前幀的第一加權係數，通過如下計算公式計算獲得： wgt_par1=a_wgt1*smooth_dist_reg_update+b_wgt1 a_wgt1=(xl_wgt1-xh_wgt1)/(yh_dist1’-yl_dist1’) b_wgt1= xl_wgt1- a_wgt1* yh_dist1’

其中，wgt_par 1為當前幀的第一加權係數，smooth_dist_reg_update為當前幀的平滑後的聲道間時間差估計偏差；xh_wgt為第一加權係數的上限值；xl_wgt為第一加權係數的下限值；yh_dist1’為第一加權係數的上限值對應的平滑後的聲道間時間差估計偏差，yl_dist1’為第一加權係數的下限值對應的平滑後的聲道間時間差估計偏差；yh_dist1’、yl_dist1’、 xh_wgt1和xl_wgt1均為正數。

結合第一方面的第二十四種實現，在第一方面的第二十五種實現中， wgt_par1=min(wgt_par1，xh_wgt1)； wgt_par1=max(wgt_par1, xl_wgt1)；

其中，min表示取最小值，max表示取最大值。

通過在wgt_par1大於第一加權係數的上限值時，將wgt_par1限定為該第一加權係數的上限值；在wgt_par1小於第一加權係數的下限值時，將wgt_par1限定為該第一加權係數的下限值，保證wgt_par1的值不會超過第一加權係數的正常取值範圍，保證計算出的當前幀的時延軌跡估計值的準確性。

結合第一方面的第二十二種實現，在第一方面的第二十六種實現中，在當前幀的自我調整窗函數是根據當前幀的聲道間時間差估計偏差確定的時，對緩存的至少一個過去幀的加權係數進行更新，包括：根據當前幀的聲道間時間差估計偏差，計算當前幀的第二加權係數；根據當前幀的第二加權係數，對緩存的至少一個過去幀的第二加權係數進行更新。

可選地，所述當前幀的第二加權係數，通過如下計算公式計算獲得： wgt_par2=a_wgt2*dist_reg+b_wgt2 a_wgt2=(xl_wgt2-xh_wgt2)/(yh_dist2’-yl_dist2’) b_wgt2= xl_wgt2- a_wgt2* yh_dist2’

其中，wgt_par 2為所述當前幀的第二加權係數，dist_reg為所述當前幀的聲道間時間差估計偏差； xh_wgt2為第二加權係數的上限值；xl_wgt2為第二加權係數的下限值；yh_dist2’為所述第二加權係數的上限值對應的聲道間時間差估計偏差，yl_dist2’為所述第二加權係數的下限值對應的聲道間時間差估計偏差；所述yh_dist2’、所述 yl_dist2’、所述xh_wgt2和所述xl_wgt2均為正數。

可選地，wgt_par2=min(wgt_par2，xh_wgt2)；wgt_par2=max(wgt_par2, xl_wgt2)。

結合第一方面的第二十三種至第二十六種實現中的任意一種，在第一方面的第二十七種實現中，對緩存的至少一個過去幀的加權係數進行更新，包括：當當前幀的前一幀的語音啟動檢測結果為啟動幀或當前幀的語音啟動檢測結果為啟動幀時，對緩存的至少一個過去幀的加權係數進行更新。

由於在當前幀的前一幀的語音啟動檢測結果或當前幀的語音啟動檢測結果為啟動幀時，說明當前幀的多聲道信號是啟動幀的概率較大，在當前幀的多聲道信號是啟動幀時，當前幀的加權係數有效性較高，因此，通過據當前幀的前一幀的語音啟動檢測結果或當前幀的語音啟動檢測結果，確定是否對緩存的至少一個過去幀的加權係數進行更新，提高了緩存的至少一個過去幀的加權係數的有效性。

第二方面，提供了一種時延估計裝置，該裝置包括至少一個單元，該至少一個單元用於實現上述第一方面或第一方面中的任意一種實現所提供的時延估計方法。

協力廠商面，提供了一種音訊編碼設備，該音訊編碼設備包括：處理器、與所述處理器相連的記憶體；

該記憶體被配置為由處理器控制，該處理器用於實現上述第一方面或第一方面中的任意一種實現所提供的時延估計方法。

第四方面，提供一種電腦可讀存儲介質，所述電腦可讀存儲介質中存儲有指令，當其在音訊編碼設備上運行時，使得音訊編碼設備執行上述第一方面或第一方面中的任意一種實現所提供的時延估計方法。

本文所提及的“第一”、“第二”以及類似的詞語並不表示任何順序、數量或者重要性，而只是用來區分不同的組成部分。同樣，“一個”或者“一”等類似詞語也不表示數量限制，而是表示存在至少一個。“連接”或者“相連”等類似的詞語並非限定於物理的或者機械的連接，而是可以包括電性的連接，不管是直接的還是間接的。

在本文中提及的“多個”是指兩個或兩個以上。“和/或”，描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。字元“/”一般表示前後關聯物件是一種“或”的關係。

請參考第1A圖，其示出了本申請一個示例性實施例提供的時域上的立體聲編解碼系統的結構示意圖。立體聲編解碼系統包括編碼元件110和解碼元件120。

編碼元件110用於對立體聲信號在時域上進行編碼。可選地，編碼元件110可以通過軟體實現；或者，也可以通過硬體實現；或者，還可以通過軟硬體結合的形式實現，本實施例對此不作限定。

編碼元件110對立體聲信號在時域上進行編碼包括如下幾個步驟：

1）對獲取到的立體聲信號進行時域預處理，得到預處理後的左聲道信號和預處理後的右聲道信號。

立體聲信號由採集元件採集到並發送至編碼元件110。可選地，採集元件可以與編碼元件110設置於同一設備中；或者，也可以與編碼元件110設置於不同設備中。

其中，預處理後的左聲道信號和預處理後的右聲道信號是預處理後的立體聲信號中的兩路信號。

可選地，預處理包括高通濾波處理、預加重處理、取樣速率轉換、聲道轉換中的至少一種，本實施例對此不作限定。

2）根據預處理後的左聲道信號和預處理後的右聲道信號進行時延估計，得到預處理後的左聲道信號和預處理後的右聲道信號之間的聲道間時間差。

3）根據聲道間時間差對預處理後的左聲道信號和預處理後的右聲道信號進行時延對齊處理，得到時延對齊處理後的左聲道信號和時延對齊處理後的右聲道信號。

4）對聲道間時間差進行編碼，得到聲道間時間差的編碼索引。

5）計算用於時域下混處理的立體聲參數，並對該用於時域下混處理的立體聲參數進行編碼，得到用於時域下混處理的立體聲參數的編碼索引。

其中，用於時域下混處理的立體聲參數用於對時延對齊處理後的左聲道信號和時延對齊處理後的右聲道信號進行時域下混處理。

6）根據用於時域下混處理的立體聲參數對時延對齊處理後的左聲道信號和時延對齊處理後的右聲道信號進行時域下混處理，得到主要聲道信號和次要聲道信號。

時域下混處理用於獲取主要聲道信號和次要聲道信號。

時延對齊處理後的左聲道信號和時延對齊處理後的右聲道信號通過時域下混技術處理後，得到主要聲道信號（Primary channel，或稱中央通道（Mid channel）的聲道信號）和次要聲道信號（Secondary channel，或稱邊通道（Side channel）的聲道信號）。

主要聲道信號用於表徵通道間的相關資訊；次要聲道信號用於表徵聲道間的差異資訊。當時延對齊處理後的左聲道信號和時延對齊處理後的右聲道信號在時域上對齊時，次要聲道信號最小，此時，立體聲信號的效果最好。

參考第2圖所示的第n幀的預處理後的左聲道信號L和預處理後的右聲道信號R。其中，預處理後的左聲道信號L在預處理後的右聲道信號R之前，即，相對於預處理後的右聲道信號R來說，預處理後的左聲道信號L存在延遲，預處理後的左聲道信號L與預處理後的右聲道信號R之間存在聲道間時間差21。在這種情況下，次要聲道信號增強，主要聲道信號減弱，立體聲信號的效果較差。

7）分別對主要聲道信號和次要聲道信號進行編碼，得到主要聲道信號對應的第一單聲道編碼碼流以及次要聲道信號對應的第二單聲道編碼碼流。

8）將聲道間時間差的編碼索引、立體聲參數的編碼索引、第一單聲道編碼碼流和第二單聲道編碼碼流寫入立體聲編碼碼流。

解碼元件120用於對編碼元件110生成的立體聲編碼碼流進行解碼，得到立體聲信號。

可選地，編碼元件110與解碼元件120通過有線或無線的方式相連，解碼元件120通過該連接獲取編碼元件110生成的立體聲編碼碼流；或者，編碼元件110將生成的立體聲編碼碼流存儲至記憶體，解碼元件120讀取記憶體中的立體聲編碼碼流。

可選地，解碼元件120可以通過軟體實現；或者，也可以通過硬體實現；或者，還可以通過軟硬體結合的形式實現，本實施例對此不作限定。

解碼元件120對立體聲編碼碼流進行解碼，得到立體聲信號包括以下幾個步驟：

1）對立體聲編碼碼流中的第一單聲道編碼碼流以及第二單聲道編碼碼流進行解碼，得到主要聲道信號和次要聲道信號。

2）根據立體聲編碼碼流獲取用於時域上混處理的立體聲參數的編碼索引，對主要聲道信號和次要聲道信號進行時域上混處理，得到時域上混處理後的左聲道信號和時域上混處理後的右聲道信號。

3）根據立體聲編碼碼流獲取聲道間時間差的編碼索引，對時域上混處理後的左聲道信號和時域上混處理後的右聲道信號進行時延調整，得到立體聲信號。

可選地，編碼元件110和解碼元件120可以設置在同一設備中；或者，也可以設置在不同設備中。設備可以為手機、平板電腦、膝上型可攜式電腦和臺式電腦、藍牙音箱、錄音筆、可穿戴式設備等具有音訊信號處理功能的移動終端，也可以是核心網、無線網中具有音訊信號處理能力的網元，本實施例對此不作限定。

示意性地，參考第1B圖，本實施例以編碼元件110設置於移動終端130中、解碼元件120設置於移動終端140中，移動終端130與移動終端140是相互獨立的具有音訊信號處理能力的電子設備，且移動終端130與移動終端140之間通過無線或有線網路連接為例進行說明。

可選地，移動終端130包括採集元件131、編碼元件110和通道編碼元件132，其中，採集元件131與編碼元件110相連，編碼元件110與編碼元件132相連。

可選地，移動終端140包括音訊播放元件141、解碼元件120和通道解碼元件142，其中，音訊播放元件141與解碼元件110相連，解碼元件110與通道編碼元件132相連。

移動終端130通過採集元件131採集到立體聲信號後，通過編碼元件110對該立體聲信號進行編碼，得到立體聲編碼碼流；然後，通過通道編碼元件132對立體聲編碼碼流進行編碼，得到傳輸信號。

移動終端130通過無線或有線網路將該傳輸信號發送至移動終端140。

移動終端140接收到該傳輸信號後，通過通道解碼元件142對傳輸信號進行解碼得到立體聲編碼碼流；通過解碼元件110對立體聲編碼碼流進行解碼得到立體聲信號；通過音訊播放元件播放該立體聲信號。

示意性地，參考第1C圖，本實施例以編碼元件110和解碼元件120設置於同一核心網或無線網中具有音訊信號處理能力的網元150中為例進行說明。

可選地，網元150包括通道解碼元件151、解碼元件120、編碼元件110和通道編碼元件152。其中，通道解碼元件151與解碼元件120相連，解碼元件120與編碼元件110相連，編碼元件110與通道編碼元件152相連。

通道解碼元件151接收到其它設備發送的傳輸信號後，對該傳輸信號進行解碼得到第一立體聲編碼碼流；通過解碼元件120對立體聲編碼碼流進行解碼得到立體聲信號；通過編碼元件110對該立體聲信號進行編碼，得到第二立體聲編碼碼流；通過通道編碼元件152對該第二立體聲編碼碼流進行編碼得到傳輸信號。

其中，其它設備可以是具有音訊信號處理能力的移動終端；或者，也可以是具有音訊信號處理能力的其它網元，本實施例對此不作限定。

可選地，網元中的編碼元件110和解碼元件120可以對移動終端發送的立體聲編碼碼流進行轉碼。

可選地，本實施例中將安裝有編碼元件110的設備稱為音訊編碼設備，在實際實現時，該音訊編碼設備也可以具有音訊解碼功能，本實施對此不作限定。

可選地，本實施例僅以立體聲信號為例進行說明，在本申請中，音訊編碼設備還可以處理多聲道信號，該多聲道信號包括至少兩路聲道信號。

下面對本發明實施例中涉及的若干個名詞進行介紹。

當前幀的多聲道信號：是指當前估算聲道間時間差的一幀多聲道信號。當前幀的多聲道信號包括至少兩路聲道信號。其中，不同路的聲道信號可以是通過音訊編碼設備中不同的音訊採集元件採集到的，或者，不同路的聲道信號也可以是其它設備中不同的音訊採集元件採集到的；不同路的聲道信號由同一聲源發出。

比如：當前幀的多聲道信號包括左聲道信號L和右聲道信號R。其中，左聲道信號L為通過左聲道音訊採集元件採集到的，右聲道信號R為通過右聲道音訊採集元件採集到的，左聲道信號L和右聲道信號R來源於同一聲源。

參考第2圖，音訊編碼設備正在估算第n幀的多聲道信號的聲道間時間差，則第n幀為當前幀。

當前幀的前一幀：是指位於當前幀之前的第一幀，比如：當前幀為第n幀，則當前幀的前一幀為第n-1幀。

可選地，當前幀的前一幀也可以簡稱為前一幀。

過去幀：在時域上位於當前幀之前，過去幀包括：當前幀的前一幀，當前幀的前兩幀，當前幀的前三幀等。參考第2圖，若當前幀為第n幀，則過去幀包括：第n-1幀、第n-2幀、…、第1幀。

可選地，本申請中，至少一個過去幀可以是位於當前幀之前的M幀，比如：位於當前幀之前的8幀。

下一幀：是指當前幀之後的第一幀。參考第2圖，若當前幀為第n幀，則下一幀為第n+1幀。

幀長是指一幀多聲道信號的時長。可選地，幀長通過採樣點的個數來表示，比如：幀長N=320個採樣點。

互相關係數：用於表徵在不同的聲道間時間差下，當前幀的多聲道信號中，不同路的聲道信號之間的互相關程度，該互相關程度通過互相關值來表示。對於當前幀的多聲道信號中的任意兩路聲道信號來說，在某一聲道間時間差下，根據該聲道間時間差進行時延調整後的兩路聲道信號之間越相似，則互相關程度越強，互相關值越大；根據該聲道間時間差進行時延調整後的兩路聲道信號之間的差異越大，則互相關程度越弱，互相關值越小。

互相關係數的索引值對應於聲道間時間差，互相關係數中各個索引值對應的互相關值表徵了各個聲道間時間差對應的時延調整後兩路單聲道信號的互相關程度。

可選地，互相關係數（cross-correlation coefficients）又可稱為一組互相關值，或稱為互相關函數，本申請對此不作限定。

參考第2圖，在計算第a幀聲道信號的互相關係數時，分別計算在不同的聲道間時間差下，左聲道信號 L和右聲道信號R之間的互相關值。

比如：當互相關係數的索引值為0時，聲道間時間差為-N/2個採樣點，使用該聲道間時間差對左聲道信號 L和右聲道信號R進行對齊處理，得到的互相關值為k0；

當互相關係數的索引值為1時，聲道間時間差為-N/2+1個採樣點，使用該聲道間時間差對左聲道信號 L和右聲道信號R進行對齊處理，得到的互相關值為k1；

當互相關係數的索引值為2時，聲道間時間差為-N/2+2個採樣點時，使用該聲道間時間差對左聲道信號 L和右聲道信號R進行對齊處理，得到的互相關值為k2；

當互相關係數的索引值為3時，聲道間時間差為-N/2+3個採樣點時，使用該聲道間時間差對左聲道信號 L和右聲道信號R進行對齊處理，得到的互相關值為k3；……

當互相關係數的索引值為N時，聲道間時間差為N/2個採樣點時，使用該聲道間時間差對左聲道信號 L和右聲道信號R進行對齊處理，得到的互相關值為kN。

搜索k0~kN中的最大值，比如：k3最大，則說明在聲道間時間差為-N/2+3個採樣點時，左聲道信號 L和右聲道信號R最相似，也即，該聲道間時間差最接近真實的聲道間時間差。

需要補充說明的是，本實施例僅用於說明音訊編碼設備通過互相關係數確定聲道間時間差的原理，在實際實現時，可能不通過上述方法確定。

請參考第3圖，其示出了本申請一個示例性實施例提供的時延估計方法的流程圖。該方法包括以下幾個步驟。

步驟301，確定當前幀的多聲道信號的互相關係數。

步驟302，根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值。

可選地，至少一個過去幀在時間上連續，且至少一個過去幀中的最後一幀與當前幀在時間上連續，即，至少一個過去幀中的最後一個過去幀為當前幀的前一幀；或者，至少一個過去幀在時間上間隔預定幀數，且至少一個過去幀中的最後一個過去幀與當前幀間隔預定幀數；或者，至少一個過去幀在時間上不連續，且間隔的幀數不固定，至少一個過去幀中的最後一個過去幀與當前幀間隔的幀數不固定。本實施例不對該預定幀數的數值作限定，比如：2幀。

本實施例不對過去幀的數量作限定，比如：過去幀的數量為8個、12個、25個等。

時延軌跡估計值用於表徵當前幀的聲道間時間差的預測值。本實施例中，根據至少一個過去幀的聲道間時間差資訊類比出一條時延軌跡，根據該時延軌跡計算當前幀的時延軌跡估計值。

可選地，至少一個過去幀的聲道間時間差資訊為至少一個過去幀的聲道間時間差；或者，為至少一個過去幀的聲道間時間差平滑值。

其中，每個過去幀的聲道間時間差平滑值是根據該幀的時延軌跡估計值和該幀的聲道間時間差確定的。

步驟303，確定當前幀的自我調整窗函數。

可選地，自我調整窗函數為類升餘弦窗函數。自我調整窗函數具有相對地放大中間部分抑制邊緣部分的功能。

可選地，每幀聲道信號對應的自我調整窗函數不同。

自我調整窗函數通過下述公式表示：當0≤k≤ TRUNC(A*L_NCSHIFT_DS/2)-2*win_width-1時， loc_weight_win(k)=win_bias 當TRUNC(A*L_NCSHIFT_DS/2)-2*win_width≤k≤TRUNC(A*L_NCSHIFT_DS/2)+2*win_width-1時， loc_weight_win（k）=0.5*（1+ win_bias）+0.5*（1- win_bias）*cos（π*（k- TRUNC（A*L_NCSHIFT_DS/2））/（2* win_width））當TRUNC(A*L_NCSHIFT_DS/2)+2*win_width≤k≤A* L_NCSHIFT_DS時， loc_weight_win(k)= win_bias

其中，loc_weight_win（k），k = 0,1,…, A* L_NCSHIFT_DS用於表徵自我調整窗函數；A為大於等於4的預設的常數，比如：A=4；TRUNC表示對數值進行四捨五入取整，比如：在自我調整窗函數的公式中對A*L_NCSHIFT_DS/2的值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width用於表徵自我調整窗函數的升餘弦寬度參數；win_bias用於表徵自我調整窗函數的升餘弦高度偏移量。

可選地，聲道間時間差的絕對值的最大值是預先設置的正數，一般為大於零且小於等於幀長的正整數，如40，60，80。

可選地，聲道間時間差的最大值或者聲道間時間差的最小值是預先設置的正整數，聲道間時間差的絕對值的最大值是對該聲道間時間差的最大值取絕對值得到的，或者，聲道間時間差的絕對值的最大值是對該聲道間時間差的最小值取絕對值得到的。

例如，聲道間時間差的最大值為40，聲道間時間差的最小值為-40，聲道間時間差的絕對值的最大值為40，既是對該聲道間時間差的最大值取絕對值得到的，也是對該聲道間時間差的最小值取絕對值得到的。

又例如，聲道間時間差的最大值為40，聲道間時間差的最小值為-20，聲道間時間差的絕對值的最大值為40，是對該聲道間時間差的最大值取絕對值得到的。

又例如，聲道間時間差的最大值為40，聲道間時間差的最小值為-60，聲道間時間差的絕對值的最大值為60，是對該聲道間時間差的最小值取絕對值得到的。

根據自我調整窗函數的公式可知，自我調整窗函數為兩邊高度固定，中間凸起的類升餘弦窗。自我調整窗函數由權值恒定窗以及具有高度偏移量的升餘弦窗組成，權值恒定窗的權值是根據高度偏移量確定的。自我調整窗函數主要由兩個參數確定，分別為：升餘弦寬度參數和升餘弦高度偏移量。

參考第4A圖所示的自我調整窗函數的示意圖。相對於寬窗402來說，窄窗401是指自我調整窗函數中升餘弦窗的窗口的寬度相對較窄，窄窗401對應的時延軌跡估計值與實際的聲道間時間差之間的差距相對較小。相對於窄窗401來說，寬窗402是指自我調整窗函數中升餘弦窗的窗口的寬度相對較寬，寬窗402對應的時延軌跡估計值與實際的聲道間時間差之間的差距較大。也即，自我調整窗函數中升餘弦窗的窗口的寬度，與時延軌跡估計值與實際的聲道間時間差之間的差距呈正相關關係。

自我調整窗函數的升餘弦寬度參數和升餘弦高度偏移量，與每幀多聲道信號的聲道間時間差估計偏差資訊有關。聲道間時間差估計偏差資訊用於表徵聲道間時間差的預測值與實際值之間的偏差。

參考第4B圖所示的升餘弦寬度參數與聲道間時間差估計偏差資訊之間的關係示意圖。若升餘弦寬度參數的上限值為0.25，該升餘弦寬度參數的上限值對應的聲道間時間差估計偏差資訊的值為3.0，此時，該聲道間時間差估計偏差資訊的值較大，自我調整窗函數中升餘弦窗的視窗的寬度較寬（參見第4A圖中的寬窗402）；自我調整窗函數的升餘弦寬度參數的下限值為0.04，該升餘弦寬度參數的下限值對應的聲道間時間差估計偏差資訊的值為1.0，此時，該聲道間時間差估計偏差資訊的值較小，自我調整窗函數中升餘弦窗的視窗的寬度較窄（參見第4A圖中的窄窗401）。

參考第4C圖所示的升餘弦高度偏移量與聲道間時間差估計偏差資訊之間的關係示意圖。其中，升餘弦高度偏移量的上限值為0.7，該升餘弦高度偏移量的上限值對應的聲道間時間差估計偏差資訊的值為3.0，此時，該平滑後的聲道間時間差估計偏差較大，自我調整窗函數中升餘弦窗的高度偏移量較大（參見第4A圖中的寬窗402）；升餘弦高度偏移量的下限值為0.4，該升餘弦高度偏移量的下限值對應的聲道間時間差估計偏差資訊的值為1.0，此時，該聲道間時間差估計偏差資訊的值較小，自我調整窗函數中升餘弦窗的高度偏移量較小（參見第4A圖中的窄窗401）。

步驟304，根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權，得到加權後的互相關係數。

加權後的互相關係數可通過如下計算公式計算獲得： c_weight(x)=c(x)* loc_weight_win(x-TRUNC(reg_prv_corr)+ TRUNC(A*L_NCSHIFT_DS/2)-L_NCSHIFT_DS)

其中，c_weight(x)為加權後的互相關係數；c(x)為互相關係數；loc_weight_win為當前幀的自我調整窗函數；TRUNC表示對數值進行四捨五入取整，比如：在加權後的互相關係數的公式中對reg_prv_corr進行四捨五入取整，以及，對A*L_NCSHIFT_DS/2的值進行四捨五入取整；reg_prv_corr為當前幀的時延軌跡估計值；x為大於等於零且小於等於2*L_NCSHIFT_DS的整數。

由於自我調整窗函數是類升餘弦窗，具有相對地放大中間部分抑制邊緣部分的功能，這就使得根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權時，離時延軌跡估計值越近的索引值，對應的互相關值的加權係數越大，離時延軌跡估計值越遠的索引值，對應的互相關值的加權係數越小。自我調整窗函數的升餘弦寬度參數和升餘弦高度偏移量自我調整地抑制了互相關係數中遠離時延軌跡估計值的索引值對應的互相關值。

步驟305，根據加權後的互相關係數確定當前幀的聲道間時間差。

根據加權後的互相關係數確定當前幀的聲道間時間差，包括：搜索加權後的互相關係數中互相關值的最大值；根據該最大值對應的索引值，確定當前幀的聲道間時間差。

可選地，搜索加權後的互相關係數中互相關值的最大值，包括：將互相關係數中的第2個互相關值與第1個互相關值進行比較，得到第1個互相關值和第2個互相關值中的最大值；將第3個互相關值與該最大值進行比較，得到第3個互相關值與該最大值中的最大值；依次迴圈，將第i個互相關值與上一次比較得到的最大值進行比較，得到第i個互相關值與上一次比較得到的最大值中的最大值；令i=i+1，繼續執行將第i個互相關值與上一次比較得到的最大值進行比較的步驟，直至所有互相關值均完成比較，得到互相關值中的最大值。其中，i為大於2的整數。

可選地，根據最大值對應的索引值，確定當前幀的聲道間時間差，包括：將最大值對應的索引值與聲道間時間差的最小值的和作為當前幀的聲道間時間差。

由於互相關係數能夠體現出根據不同的聲道間時間差進行時延調整後的兩路的聲道信號之間的互相關程度，而互相關係數的索引值與聲道間時間差有對應關係，因此，音訊編碼設備根據互相關係數的最大值（互相關程度最強）對應的索引值，能夠確定出當前幀的聲道間時間差。

綜上所述，本實施例提供的時延估計方法，通過根據當前幀的時延軌跡估計值來預測當前幀的聲道間時間差；根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權；由於自我調整窗函數是類升餘弦窗，具有相對地放大中間部分抑制邊緣部分的功能，這就使得根據當前幀的時延軌跡估計值和當前幀的自我調整窗函數，對互相關係數進行加權時，離時延軌跡估計值越近，加權係數越大，避免了對第一互相係數過度平滑的問題；離時延軌跡估計值越遠，加權係數越小，避免了對第二互相關係數平滑不足的問題；這樣，實現了通過自我調整窗函數自我調整地抑制互相關係數中遠離時延軌跡估計值的索引值對應的互相關值，提高了從加權後的互相關係數中確定聲道間時間差的準確性。其中，第一互相關係數指互相關係數中時延軌跡估計值附近的索引值對應的互相關值，第二互相關係數指互相關係數中遠離時延軌跡估計值的索引值對應的互相關值。

下麵對第3圖所示的實施例中步驟301-303進行詳細介紹。

第一、對於步驟301中確定當前幀的多聲道信號的互相關係數的介紹。

1）音訊編碼設備根據當前幀的左、右聲道時域信號，確定互相關係數。

通常需要預先設置聲道間時間差的最大值T_max 和聲道間時間差的最小值T_min ，以便確定互相關係數的計算範圍。其中，聲道間時間差的最大值T_max 和聲道間時間差的最小值T_min 均為實數，T_max ＞T_min 。其中，T_max 和T_min 的取值與幀長有關，或者說，T_max 和T_min 的取值與當前的採樣頻率有關。

可選地，通過預先設定聲道間時間差的絕對值的最大值L_NCSHIFT_DS，來確定聲道間時間差的最大值T_max 和聲道間時間差的最小值T_min 。示意性地，聲道間時間差的最大值T_max =L_NCSHIFT_DS和聲道間時間差的最小值T_min =-L_NCSHIFT_DS。

本申請不對T_max 和T_min 的取值作限定，示意性地，聲道間時間差的絕對值的最大值L_NCSHIFT_DS為40，則T_max =40；T_min =-40。

在一種實現方式中，互相關係數的索引值用於指示聲道間時間差與聲道間時間差的最小值之間的差值，此時，根據當前幀的左、右聲道時域信號，確定互相關係數通過下述公式表示：在T_min ≤0，且0＜T_max 情況下：當 T_min ≤i≤0時，，k=i-T_min ；當 0＜i≤T_max 時，，k= i-T_min 。在T_min ≤0，且T_max ≤0的情況下：當T_min ≤i≤T_max 時，，k=i-T_min 。在T_min ≥0，且T_max ≥0的情況下：當T_min ≤i≤T_max 時，，k= i-T_min 。

其中，N為幀長，為當前幀的左聲道時域信號，為當前幀的右聲道時域信號；c（k）為當前幀的互相關係數；k為互相關係數的索引值，k為不小於0的整數，且，k的取值範圍為[0, T_max -T_min ]。

假設T_max =40，T_min =-40；那麼，音訊編碼設備使用T_min ≤0，且0＜T_max 情況對應的計算方式確定當前幀的互相關係數，此時，k的取值範圍為[0, 80]。

在另一種實現方式中，互相關係數的索引值用於指示聲道間時間差，此時，音訊編碼設備根據聲道間時間差的最大值和聲道間時間差的最小值，確定互相關係數通過下述公式表示：在T_min ≤0，且0＜T_max 情況下：當 T_min ≤i≤0時，；當 0＜i≤T_max 時，。在T_min ≤0，且T_max ≤0的情況下：當T_min ≤i≤T_max 時，。在T_min ≥0，且T_max ≥0的情況下：當T_min ≤i≤T_max 時，。

其中，N為幀長，為當前幀的左聲道時域信號，為當前幀的右聲道時域信號；c（i）為當前幀的互相關係數；i為互相關係數的索引值，i的取值範圍為[T_min ，T_max ]。

假設T_max =40，T_min =-40；那麼，音訊編碼設備使用T_min ≤0，且0＜T_max 對應的計算公式確定當前幀的互相關係數，此時，i的取值範圍為[-40, 40]。

第二、對於步驟302中確定當前幀的時延軌跡估計值的介紹。

在第一種實現方式中，根據緩存的至少一個過去幀的聲道間時間差資訊，通過線性回歸方法進行時延軌跡估計，確定當前幀的時延軌跡估計值。

本實現方式通過以下幾個步驟實現：

1）根據至少一個過去幀的聲道間時間差資訊和對應的序號，生成M個資料對，M為正整數。

緩存中存儲有M個過去幀的聲道間時間差資訊。

可選地，聲道間時間差信息為聲道間時間差；或者，聲道間時間差資訊為聲道間時間差平滑值。

可選地，緩存中存儲的M個過去幀的聲道間時間差遵循先進先出原則，即，先緩存的過去幀的聲道間時間差的緩存位置靠前，後緩存的過去幀的聲道間時間差的緩存位置靠後。

另外，對於後緩存的過去幀的聲道間時間差來說，先緩存的過去幀的聲道間時間差先移出緩存。

可選地，本實施例中，每個資料對是由每個過去幀的聲道間時間差資訊和對應的序號生成的。

序號是指每個過去幀在緩存中的位置，比如：緩存中存儲有8個過去幀，則序號分別為0、1、2、3、4、5、6、7。

示意性地，生成的M個資料對為：{（x₀ ，y₀ ），（x₁ ，y₁ ），（x₂ ，y₂ ）…（x_r ，y_r ），…，（x_M-1 ，y_M-1 ）}。其中，（x_r ，y_r ）為第r+1個資料對，x_r 用於指示第r+1個資料對的序號，即x_r =r；y_r 用於指示第r+1個資料對對應的過去幀的聲道間時間差。r =0，1，…，M-1。

參考第5圖，其示出了緩存的8個過去幀的示意圖，其中，每個序號對應的位置緩存一個過去幀的聲道間時間差。此時，8個數據對為：{（x₀ ，y₀ ），（x₁ ，y₁ ），（x₂ ，y₂ ）…（x_r ，y_r ），…，（x₇ ，y₇ ）}。此時，r =0，1，2，3，4，5，6，7。

2）根據M個資料對，計算第一線性回歸參數和第二線性回歸參數。

本實施例中，假設資料對中的y_r 是關於x_r ，且測量誤差為ε_r 的一個線性函數，該線性函數如下： y_r =α+β*x_r+ ε_r

其中，α為第一線性回歸參數，β為第二線性回歸參數，ε_r 為測量誤差。

該線性函數需要滿足下述條件：觀測點x_r 對應的觀測值y_r （實際緩存的聲道間時間差資訊）與根據該線性函數計算出的估計值α+β*x_r 之間的距離最小，即，滿足代價函數Q（α，β）最小化。

代價函數Q（α，β）如下：

為了滿足上述條件，線性函數中的第一線性回歸參數和第二線性回歸參數需要滿足：

其中，x_r 用於指示M個資料對中第r+1個數據對的序號；y_r 為第r+1個資料對中的聲道間時間差資訊。

3）根據第一線性回歸參數與第二線性回歸參數，得到當前幀的時延軌跡估計值。

根據第一線性回歸參數與第二線性回歸參數，計算第M+1個資料對的序號對應的估計值，將該估計值確定為當前幀的時延軌跡估計值。 reg_prv_corr=α+β*M

其中，reg_prv_corr表示當前幀的時延軌跡估計值，M為第M+1個資料對的的序號，α+β*M為第M+1個資料對的估計值。

示意性地，M=8，根據生成的8個資料對確定出α和β後，根據該α和β估計第9個資料對中的聲道間時間差，將第9個資料對的聲道間時間差確定為當前幀的時延軌跡估計值，即，reg_prv_corr=α+β*8。

可選地，本實施例僅以通過序號和聲道間時間差生成資料對的方式為例進行說明，在實際實現時，也可以通過其它方式生成資料對，本實施例對此不作限定。

在第二種實現方式中，根據緩存的至少一個過去幀的聲道間時間差資訊，通過加權線性回歸方法進行時延軌跡估計，確定當前幀的時延軌跡估計值。

本實現方式通過以下幾個步驟實現：

本步驟與第一種實現方式中的步驟1）的相關描述相同，本實施例在此不作贅述。

2）根據M個資料對和M個過去幀的加權係數，計算第一線性回歸參數和第二線性回歸參數。

可選地，緩存中既存儲有M個過去幀的聲道間時間差資訊，也存儲有M個過去幀的加權係數。其中，加權係數用於計算對應的過去幀的時延軌跡估計值。

可選地，每個過去幀的加權係數是根據該過去幀的平滑後的聲道間時間差估計偏差計算得到的；或者，每個過去幀的加權係數是根據該過去幀的聲道間時間差估計偏差計算得到的。

該線性函數需要滿足下述條件：觀測點x_r 對應的觀測值y_r （實際緩存的聲道間時間差資訊）與根據該線性函數計算出的估計值α+β*x_r 之間的加權距離最小，即，滿足代價函數Q（α，β）最小化。

代價函數Q（α，β）如下：

其中，w_r 為第r個資料對對應的過去幀的加權係數。

其中，x_r 用於指示M個資料對中第r+1個數據對的序號；y_r 為第r+1個資料對中的聲道間時間差資訊；w_r 為在至少一個過去幀中，第r+1個資料對中的聲道間時間差資訊對應的加權係數。

本步驟與第一種實現方式中的步驟3）的相關描述相同，本實施例在此不作贅述。

需要補充說明的是，本實施例僅以線性回歸方法或加權的線性回的方式來計算時延軌跡估計值為例進行說明，在實際實現時，也可以使用其它方式計算時延軌跡估計值，本實施例對此不作限定。示意性地，使用B樣條（B-spline）法計算時延軌跡估計值；或者，使用三次樣條法計算時延軌跡估計值；或者，使用二次樣條法計算時延軌跡估計值。

第三、對於步驟303中確定當前幀的自我調整窗函數的介紹。

本實施例中，提供了兩種計算當前幀的自我調整窗函數的方式，第一種方式根據前一幀的平滑後的聲道間時間差估計偏差，確定當前幀的自我調整窗函數，此時，聲道間時間差估計偏差資訊為平滑後的聲道間時間差估計偏差，自我調整窗函數的升餘弦寬度參數和升餘弦高度偏移量與平滑後的聲道間時間差估計偏差有關；第二種方式：根據當前幀的聲道間時間差估計偏差，確定當前幀的自我調整窗函數，此時，聲道間時間差估計偏差資訊為聲道間時間差估計偏差，自我調整窗函數的升餘弦寬度參數和升餘弦高度偏移量與聲道間時間差估計偏差有關。

下面分別對這兩種方式分別進行介紹。

第一種方式通過以下幾個步驟實現。

1）根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦寬度參數。

由於使用靠近當前幀的多聲道信號來計算當前幀的自我調整窗函數的準確性較高，因此，本實施例中，以根據當前幀的前一幀的平滑後的聲道間時間差估計偏差來確定當前幀的自我調整窗函數為例進行說明。

可選地，當前幀的前一幀的平滑後的聲道間時間差估計偏差存儲在緩存中。

本步驟通過下述公式表示： win_width1=TRUNC（width_par1*（A*L_NCSHIFT_DS+1）） width_par1=a_width1*smooth_dist_reg+b_width1 其中， a_ width1=(xh_width1-xl_width1)/(yh_dist1-yl_dist1) b_width1= xh_width1- a_ width1* yh_dist1

其中，win_width1為第一升餘弦寬度參數；TRUNC表示對數值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；A為預先設定的常數，A大於等於4。

xh_width1為第一升餘弦寬度參數的上限值，比如：第4B圖中的0.25；xl_width1為第一升餘弦寬度參數的下限值，比如：第4B圖中的0.04；yh_dist1為第一升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差，比如：第4B圖中0.25對應的3.0；yl_dist1為第一升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差，比如：第4B圖中0.04對應的1.0。

smooth_dist_reg為當前幀的前一幀的平滑後的聲道間時間差估計偏差；xh_width1、xl_width1、yh_dist1和yl_dist1均為正數。

可選地，上述公式中，b_width1= xh_width1- a_ width1* yh_dist1可替換為b_width1= xl_width1- a_ width1* yl_dist1。

可選地，本步驟中，width_par1=min(width_par1，xh_width1)；width_par1=max(width_par1，xl_width1)；其中，min表示取最小值，max表示取最大值。即，當計算得到的width_par1大於xh_width1時，將該width_par1設定為xh_width1；當計算得到的width_par1小於xl_width1時，將該width_par1設定為xl_width1。

本實施例中，通過在width_par 1大於第一升餘弦寬度參數的上限值時，將width_par 1限定為該第一升餘弦寬度參數的上限值；在width_par 1小於第一升餘弦寬度參數的下限值時，將width_par 1限定為該第一升餘弦寬度參數的下限值，保證width_par 1的值不會超過升餘弦寬度參數的正常取值範圍，從而保證計算出的自我調整窗函數的準確性。

2）根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦高度偏移量。

本步驟通過下述公式表示： win_bias1=a_bias1*smooth_dist_reg+b_bias1 其中，a_bias1=(xh_bias1-xl_bias1)/ (yh_dist2-yl_dist2) b_bias1= xh_bias1- a_bias1* yh_dist2

其中，win_bias1為第一升餘弦高度偏移量；xh_bias1為第一升餘弦高度偏移量的上限值，比如：第4C圖中的0.7；xl_ bias1為第一升餘弦高度偏移量的下限值，比如：第4C圖中的0.4；yh_dist2為第一升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差，比如：第4C圖中0.7對應的3.0；yl_dist2為第一升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差，比如：第4C圖中0.4對應的1.0；smooth_dist_reg為當前幀的前一幀的平滑後的聲道間時間差估計偏差；yh_dist2、yl_dist2、xh_ bias1和xl_ bias1均為正數。

可選地，上述公式中，b_bias1= xh_bias1- a_bias1* yh_dist2可替換為b_bias1= xl_bias1- a_bias1* yl_dist2。

可選地，本實施例中，win_bias1=min(win_bias1，xh_bias1)；win_bias1=max(win_bias1, xl_bias1)。即，當計算得到的win_bias1大於xh_bias1時，將win_bias1設定為xh_bias1；當計算得到的win_bias1小於xl_bias1時，將win_bias1設定為xl_bias1。

可選地，yh_dist2= yh_dist1；yl_dist2= yl_dist1。

3）根據第一升餘弦寬度參數和第一升餘弦高度偏移量，確定當前幀的自我調整窗函數。

將第一升餘弦寬度參數和第一升餘弦高度偏移量帶入步驟303中的自我調整窗函數中，得到如下計算公式：

當0≤k≤TRUNC(A*L_NCSHIFT_DS/2)-2*win_width1-1時， loc_weight_win(k)=win_bias1 當TRUNC(A*L_NCSHIFT_DS/2)-2*win_width1≤k≤TRUNC(A*L_NCSHIFT_DS/2)+2*win_width1-1時， loc_weight_win(k)=0.5*（1+ win_bias1）+0.5*（1- win_bias1）*cos（π*（k- TRUNC（A*L_NCSHIFT_DS/2））/（2* win_width1））當TRUNC(A*L_NCSHIFT_DS/2)+2*win_width1≤k≤A* L_NCSHIFT_DS時， loc_weight_win(k)= win_bias1

其中，loc_weight_win(k)，k = 0,1,…, A* L_NCSHIFT_DS，用於表徵自我調整窗函數；A為大於等於4的預設的常數，比如：A=4；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width1為第一升餘弦寬度參數；win_bias1為第一升餘弦高度偏移量。

本實施例中，通過前一幀的平滑後的聲道間時間差估計偏差，計算當前幀的自我調整窗函數，實現了根據該平滑後的聲道間時間差估計偏差，調整自我調整窗函數的形狀，避免了由於當前幀的時延軌跡估計的誤差，導致生成的自我調整窗函數不準確的問題，提高了生成自我調整窗函數的準確性。

可選地，在根據第一種方式確定出的自我調整窗函數，確定出當前幀的聲道間時間差之後，還可以根據當前幀的前一幀的平滑後的聲道間時間差估計偏差、當前幀的時延軌跡估計值和當前幀的聲道間時間差，確定當前幀的平滑後的聲道間時間差估計偏差。

可選地，根據當前幀的平滑後的聲道間時間差估計偏差，更新緩存中的當前幀的前一幀的平滑後的聲道間時間差估計偏差。

可選地，每次確定出當前幀的聲道間時間差之後，都根據當前幀的平滑後的聲道間時間差估計偏差，更新緩存中的當前幀的前一幀的平滑後的聲道間時間差估計偏差。

可選地，根據當前幀的平滑後的聲道間時間差估計偏差，更新緩存中的當前幀的前一幀的平滑後的聲道間時間差估計偏差，包括：通過當前幀的平滑後的聲道間時間差估計偏差替換緩存中的當前幀的前一幀的平滑後的聲道間時間差估計偏差。

當前幀的平滑後的聲道間時間差估計偏差通過如下計算公式計算獲得： smooth_dist_reg_update=（1-γ）*smooth_dist_reg+γ*dist_reg’ dist_reg’=|reg_prv_corr-cur_itd|

其中，smooth_dist_reg_update為當前幀的平滑後的聲道間時間差估計偏差；γ為第一平滑因數，0＜γ＜1，例如；smooth_dist_reg為當前幀的前一幀的平滑後的聲道間時間差估計偏差；reg_prv_corr為當前幀的時延軌跡估計值；cur_itd為當前幀的聲道間時間差。

本實施例中，通過在確定出當前幀的聲道間時間差之後，計算當前幀的平滑後的聲道間時間差估計偏差；在確定下一幀的聲道間時間差時，能夠使用該當前幀的平滑後的聲道間時間差估計偏差確定下一幀的自我調整窗函數，保證了確定下一幀的聲道間時間差的準確性。

可選地，根據上述第一種方式確定出的自我調整窗函數，確定出當前幀的聲道間時間差之後，還可以對緩存的至少一個過去幀的聲道間時間差資訊進行更新。

在一種更新方式中，根據當前幀的聲道間時間差，對緩存的至少一個過去幀的聲道間時間差資訊進行更新。

在另一種更新方式中，根據當前幀的聲道間時間差平滑值，對緩存的至少一個過去幀的聲道間時間差資訊進行更新。

可選地，根據當前幀的時延軌跡估計值和當前幀的聲道間時間差，確定當前幀的聲道間時間差平滑值。

示意性地，根據當前幀的時延軌跡估計值和當前幀的聲道間時間差，確定當前幀的聲道間時間差平滑值，可以通過下述公式來確定： cur_itd_smooth=φ*reg_prv_corr+(1-φ)*cur_itd

其中，cur_itd_smooth為當前幀的聲道間時間差平滑值；φ為第二平滑因數，reg_prv_corr為當前幀的時延軌跡估計值，cur_itd為當前幀的聲道間時間差。其中，φ為大於等於0小於等於1的常數。

其中，對緩存的至少一個過去幀的聲道間時間差資訊進行更新，包括：將當前幀的聲道間時間差或當前幀的聲道間時間差平滑值添加至緩存中。

可選地，以更新緩存中的聲道間時間差平滑值為例，緩存中存儲有固定數量的過去幀所對應的聲道間時間差平滑值，比如：存儲有8幀過去幀的聲道間時間差平滑值。若將當前幀的聲道間時間差平滑值添加至緩存中，則緩存中原來位於第一位上（隊首）的過去幀的聲道間時間差平滑值被刪除，相應地，原來位於第二位上的過去幀的聲道間時間差平滑值更新到第一位，以此類推，當前幀的聲道間時間差平滑值位於緩存中的最後一位（隊尾）。

參考第6圖所示的緩存更新的過程。假設緩存中存儲有8個過去幀的聲道間時間差平滑值，在將當前幀的聲道間時間差平滑值601添加至緩存中之前（即當前幀對應的8個過去幀），第一位上緩存有第i-8幀的聲道間時間差平滑值、第二位上緩存有第i-7幀的聲道間時間差平滑值、……、第八位上緩存有第i-1幀的聲道間時間差平滑值。

若將當前幀的聲道間時間差平滑值601添加至緩存中，則第一位被刪除（圖中以虛線框表示），第二位的序號變為第一位的序號、第三位的序號變為第二位的序號、……、第八位的序號變為第七位的序號，當前幀（第i幀）的聲道間時間差平滑值601位於第八位上，得到下一幀對應的8個過去幀。

可選地，將當前幀的聲道間時間差平滑值添加至緩存之後，也可以不刪除第一位上緩存的聲道間時間差平滑值，而是直接使用第二位至第九位上的聲道間時間差平滑值來計算下一幀的聲道間時間差；或者，使用第一位至第九位上的聲道間時間差平滑值來計算下一幀的聲道間時間差，此時，每個當前幀對應的過去幀的數量是可變的；本實施例不對緩存的更新方式作限定。

本實施例中，通過在確定出當前幀的聲道間時間差之後，計算當前幀的聲道間時間差平滑值；在確定下一幀的時延軌跡估計值時，能夠使用該當前幀的聲道間時間差平滑值確定下一幀的時延軌跡估計值，保證了確定下一幀的時延軌跡估計值的準確性。

可選地，若根據上述第二種確定當前幀的時延軌跡估計值的實現方式來確定當前幀的時延軌跡估計值，則更新緩存的至少一個過去幀的聲道間時間差平滑值之後，還可以對緩存的至少一個過去幀的加權係數進行更新，該至少一個過去幀的加權係數是加權線性回歸方法中的加權係數。

在第一種確定自我調整窗函數的方式下，對緩存的至少一個過去幀的加權係數進行更新，包括：根據當前幀的平滑後的聲道間時間差估計偏差，計算當前幀的第一加權係數；根據當前幀的第一加權係數，對緩存的至少一個過去幀的第一加權係數進行更新。

本實施例中，緩存更新的相關說明參見第6圖，本實施例在此不作贅述。

當前幀的第一加權係數通過如下計算公式計算獲得： wgt_par1=a_wgt1*smooth_dist_reg_update+b_wgt1 a_wgt1=(xl_wgt1-xh_wgt1)/(yh_dist1’-yl_dist1’) b_wgt1= xl_wgt1- a_wgt1* yh_dist1’

其中，wgt_par 1為當前幀的第一加權係數，smooth_dist_reg_update為當前幀的平滑後的聲道間時間差估計偏差；xh_wgt為第一加權係數的上限值；xl_wgt為第一加權係數的下限值；yh_dist1’為第一加權係數的上限值對應的平滑後的聲道間時間差估計偏差，yl_dist1’為第一加權係數的下限值對應的平滑後的聲道間時間差估計偏差；yh_dist1’、yl_dist1’、xh_wgt1和xl_wgt1均為正數。

可選地，wgt_par1=min(wgt_par1，xh_wgt1)；wgt_par1=max(wgt_par1, xl_wgt1)。

可選地，本實施例不對yh_dist1’、yl_dist1’、xh_wgt1和xl_wgt1的取值作限定，示意性地，xl_wgt1=0.05；xh_wgt1=1.0；yl_dist1’=2.0；yh_dist1’=1.0。

可選地，上述公式中，b_wgt1= xl_wgt1- a_wgt1* yh_dist1’可替換為b_wgt1= xh_wgt1- a_wgt1* yl_dist1’。

本實施例中，xh_wgt1＞xl_wgt1，yh_dist1’＜yl_dist1’。

本實施例中，通過在wgt_par1大於第一加權係數的上限值時，將wgt_par1限定為該第一加權係數的上限值；在wgt_par1小於第一加權係數的下限值時，將wgt_par1限定為該第一加權係數的下限值，保證wgt_par1的值不會超過第一加權係數的正常取值範圍，保證計算出的當前幀的時延軌跡估計值的準確性。

另外，通過在確定出當前幀的聲道間時間差之後，計算當前幀的第一加權係數；在確定下一幀的時延軌跡估計值時，能夠使用該當前幀的第一加權係數確定下一幀的時延軌跡估計值，保證了確定下一幀的時延軌跡估計值的準確性。

第二種方式中，根據互相關係數，確定當前幀的聲道間時間差的初始值；根據當前幀的時延軌跡估計值和當前幀的聲道間時間差的初始值，計算當前幀的聲道間時間差估計偏差；根據當前幀的聲道間時間差估計偏差，確定當前幀的自我調整窗函數。

可選地，當前幀的聲道間時間差的初始值是指根據當前幀的互相關係數，確定出的互相關係數中的互相關值的最大值；根據該最大值對應的索引值確定出的聲道間時間差。

可選地，根據當前幀的時延軌跡估計值和當前幀的聲道間時間差的初始值，確定當前幀的聲道間時間差估計偏差，通過下述公式表示： dist_reg=|reg_prv_corr-cur_itd_init|

根據當前幀的聲道間時間差估計偏差，確定當前幀的自我調整窗函數，通過以下幾個步驟實現。

1）根據當前幀的聲道間時間差估計偏差，計算第二升餘弦寬度參數。

本步驟可通過下述公式表示： win_width2=TRUNC（width_par2*（A*L_NCSHIFT_DS+1）） width_par2=a_width2* dist_reg+b_width2 其中，a_ width2=(xh_width2-xl_width2)/(yh_dist3-yl_dist3) b_width2= xh_width2- a_ width2* yh_dist3

其中，win_width2為第二升餘弦寬度參數；TRUNC表示對數值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；A為預先設定的常數，A大於等於4且A*L_NCSHIFT_DS+1為大於零的正整數；xh_width2為第二升餘弦寬度參數的上限值；xl_width2為第二升餘弦寬度參數的下限值；yh_dist3為第二升餘弦寬度參數的上限值對應的聲道間時間差估計偏差；yl_dist3為第二升餘弦寬度參數的下限值對應的聲道間時間差估計偏差；dist_reg為聲道間時間差估計偏差；xh_width2、xl_width2、yh_dist3和yl_dist3均為正數。

可選地，本步驟中，b_width2= xh_width2- a_ width2* yh_dist3可替換為b_width2= xl_width2- a_ width2* yl_dist3。

可選地，本步驟中，width_par2=min(width_par2，xh_width2)；width_par2=max(width_par2，xl_width2)；其中，min表示取最小值，max表示取最大值。即，當計算得到的width_par2大於xh_width2時，將該width_par2設定為xh_width2；當計算得到的width_par2小於xl_width2時，將該width_par2設定為xl_width2。

本實施例中，通過在width_par 2大於第二升餘弦寬度參數的上限值時，將width_par 2限定為該第二升餘弦寬度參數的上限值；在width_par 2小於第二升餘弦寬度參數的下限值時，將width_par 2限定為該第二升餘弦寬度參數的下限值，保證width_par 2的值不會超過升餘弦寬度參數的正常取值範圍，從而保證計算出的自我調整窗函數的準確性。

2）根據當前幀的聲道間時間差估計偏差，計算第二升餘弦高度偏移量。

本步驟可通過下述公式表示： win_bias2=a_bias2* dist_reg+b_bias2 其中，a_bias2=(xh_bias2-xl_bias2)/ (yh_dist4-yl_dist4) b_bias2= xh_bias2- a_bias2* yh_dist4

可選地，本步驟中，b_bias2= xh_bias2- a_bias2* yh_dist4可替換為b_bias2= xl_bias2- a_bias2* yl_dist4。

可選地，本實施例中，win_bias2=min(win_bias2，xh_bias2)；win_bias2=max(win_bias2, xl_bias2)。即，當計算得到的win_bias2大於xh_bias2時，將win_bias2設定為xh_bias2；當計算得到的win_bias2小於xl_bias2時，將win_bias2設定為xl_bias2。

可選地，yh_dist4= yh_dist3；yl_dist4= yl_dist3。

3）音訊編碼設備根據第二升餘弦寬度參數和第二升餘弦高度偏移量，確定當前幀的自我調整窗函數。

音訊編碼設備將第一升餘弦寬度參數和第一升餘弦高度偏移量帶入步驟303中的自我調整窗函數中，得到如下計算公式：

其中，loc_weight_win(k)，k = 0,1,…, A* L_NCSHIFT_DS，用於表徵所述自我調整窗函數；A為大於等於4的預設的常數，比如：A=4；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width2為第二升餘弦寬度參數；win_bias2為第二升餘弦高度偏移量。

本實施例中，通過根據當前幀的聲道間時間差估計偏差來確定當前幀的自我調整窗函數，在不必緩存前一幀的平滑後的聲道間時間差估計偏差的情況下，就能夠確定出當前幀的自我調整窗函數，節省了存儲資源。

可選地，根據上述第二種方式確定出的自我調整窗函數，確定出當前幀的聲道間時間差之後，還可以對緩存的至少一個過去幀的聲道間時間差資訊進行更新。相關描述參見第一種確定自我調整窗函數的方式，本實施例在此不作贅述。

可選地，若根據第二種確定當前幀的時延軌跡估計值的實現方式來確定當前幀的時延軌跡估計值，則更新緩存的至少一個過去幀的聲道間時間差平滑值之後，還可以對緩存的至少一個過去幀的加權係數進行更新。

在第二種確定自我調整窗函數的方式下，至少一個過去幀的加權係數是該至少一個過去幀的第二加權係數。

對緩存的至少一個過去幀的加權係數進行更新，包括：根據當前幀的聲道間時間差估計偏差，計算當前幀的第二加權係數；根據當前幀的第二加權係數，對緩存的至少一個過去幀的第二加權係數進行更新。

根據當前幀的聲道間時間差估計偏差，計算當前幀的第二加權係數，通過下述公式表示： wgt_par2=a_wgt2*dist_reg+b_wgt2 a_wgt2=(xl_wgt2-xh_wgt2)/(yh_dist2’-yl_dist2’) b_wgt2= xl_wgt2- a_wgt2* yh_dist2’

其中，wgt_par 2為當前幀的第二加權係數，dist_reg為當前幀的聲道間時間差估計偏差；xh_wgt2為第二加權係數的上限值；xl_wgt2為第二加權係數的下限值；yh_dist2’為第二加權係數的上限值對應的聲道間時間差估計偏差，yl_dist2’為第二加權係數的下限值對應的聲道間時間差估計偏差；yh_dist2’、yl_dist2’、xh_wgt2和xl_wgt2均為正數。

可選地，本實施例不對yh_dist2’、yl_dist2’、xh_wgt2和xl_wgt2的取值作限定，示意性地，xl_wgt2=0.05；xh_wgt2=1.0；yl_dist2’=2.0；yh_dist2’=1.0。

可選地，上述公式中，b_wgt2= xl_wgt2- a_wgt2* yh_dist2’可替換為b_wgt2= xh_wgt2- a_wgt2* yl_dist2’。

本實施例中，xh_wgt2＞x2_wgt1，yh_dist2’＜yl_dist2’。

本實施例中，通過在wgt_par2大於第二加權係數的上限值時，將wgt_par2限定為該第二加權係數的上限值；在wgt_par2小於第二加權係數的下限值時，將wgt_par2限定為該第二加權係數的下限值，保證wgt_par2的值不會超過第一加權係數的正常取值範圍，保證計算出的當前幀的時延軌跡估計值的準確性。

另外，通過在確定出當前幀的聲道間時間差之後，計算當前幀的第二加權係數；在確定下一幀的時延軌跡估計值時，能夠使用該當前幀的第二加權係數確定下一幀的時延軌跡估計值，保證了確定下一幀的時延軌跡估計值的準確性。

可選地，在上述各個實施例中，無論當前幀的多聲道信號是否是有效信號，都對緩存進行更新，比如：對緩存中的至少一個過去幀的聲道間時間差資訊和/或至少一個過去幀的加權係數進行更新。

可選地，只有在當前幀的多聲道信號是有效信號時，才對緩存進行更新，這樣，提高了緩存中的資料的有效性。

其中，有效信號是指能量高於預設能量，和/或，屬於預設分類的信號，比如：有效信號是語音信號，或者，有效信號是週期性信號等。

本實施例中，通過語音活動性檢測（Voice Actinity Detection ，VAD）演算法，來檢測當前幀的多聲道信號是否為啟動幀，若是，說明當前幀的多聲道信號為有效信號；若不是，說明當前幀的多聲道信號不是有效信號。

在一種方式中，根據當前幀的前一幀的語音啟動檢測結果，確定是否對緩存進行更新。

當當前幀的前一幀的語音啟動檢測結果為啟動幀時，說明當前幀是啟動幀的可能性較大，此時，對緩存進行更新；當當前幀的前一幀的語音啟動檢測結果不是啟動幀時，說明當前幀不是啟動幀的可能性較大，此時，不對緩存進行更新。

可選地，當前幀的前一幀的語音啟動檢測結果是根據當前幀的前一幀的主要聲道信號的語音啟動檢測結果和次要聲道信號的語音啟動檢測結果確定出來的。

若當前幀的前一幀的主要聲道信號的語音啟動檢測結果和次要聲道信號的語音啟動檢測結果均為啟動幀，則當前幀的前一幀的語音啟動檢測結果為啟動幀。若當前幀的前一幀的主要聲道信號的語音啟動檢測結果和/或次要聲道信號的語音啟動檢測結果為不是啟動幀，則當前幀的前一幀的語音啟動檢測結果為不是啟動幀。

在另一種方式中，根據當前幀的語音啟動檢測結果，確定是否對緩存進行更新。

在當前幀的語音啟動檢測結果為啟動幀時，說明當前幀是啟動幀的可能性較大，此時，音訊編碼設備對緩存進行更新；在當前幀的語音啟動檢測結果不是啟動幀時，說明當前幀不是啟動幀的可能性較大，此時，音訊編碼設備不對緩存進行更新。

可選地，當前幀的語音啟動檢測結果是根據當前幀的多路聲道信號的語音啟動檢測結果確定出來的。

若當前幀的多路聲道信號的語音啟動檢測結果均為啟動幀，則當前幀的語音啟動檢測結果為啟動幀。若當前幀的多路聲道信號中的至少一路聲道信號的語音啟動檢測結果為不是啟動幀，則當前幀的語音啟動檢測結果為不是啟動幀。

需要補充說明的是，本實施例僅以當前幀是否為啟動幀為標準，來更新緩存為例進行說明，在實際實現時，還可以根據當前幀的清濁音分類、週期與非週期分類、瞬態與非瞬態分類、語音與非語音分類中的至少一種，來更新緩存。

示意性地，若當前幀的前一幀的主要聲道信號和次要聲道信號均為濁音分類，說明當前幀為濁音分類的概率較大，則對緩存進行更新；若當前幀的前一幀的主要聲道信號和次要聲道信號中的至少一個為清音分類，說明當前幀不是濁音分類的概率較大，則不對緩存進行更新。

可選地，基於上述各個實施例，還可以根據當前幀的前一幀的編碼參數，確定預設窗函數模型的自我調整參數。這樣，實現了自我調整地調整當前幀的預設窗函數模型中的自我調整參數，提高確定自我調整窗函數的準確性。

其中，編碼參數用於指示當前幀的前一幀的多聲道信號的類型，或者，編碼參數用於指示經過時域下混處理的當前幀的前一幀的多聲道信號的類型。比如：啟動幀與非啟動幀分類、清濁音分類、週期與非週期分類、瞬態與非瞬態分類、語音與音樂分類等。

自我調整參數包括升餘弦寬度參數的上限值、升餘弦寬度參數的下限值、升餘弦高度偏移量的上限值、升餘弦高度偏移量的下限值、升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差、升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差、升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差、升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差中的至少一種。

可選地，當音訊編碼設備通過第一種確定自我調整窗函數的方式來確定自我調整窗函數時，升餘弦寬度參數的上限值為第一升餘弦寬度參數的上限值、升餘弦寬度參數的下限值為第一升餘弦寬度參數的下限值、升餘弦高度偏移量的上限值為第一升餘弦高度偏移量的上限值、升餘弦高度偏移量的下限值為第一升餘弦高度偏移量的下限值；相應地，升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差為第一升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差、升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差為第一升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差、升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差為第一升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差、升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差為第一升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差。

可選地，當音訊編碼設備通過第二種確定自我調整窗函數的方式來確定自我調整窗函數時，升餘弦寬度參數的上限值為第二升餘弦寬度參數的上限值、升餘弦寬度參數的下限值為第二升餘弦寬度參數的下限值、升餘弦高度偏移量的上限值為第二升餘弦高度偏移量的上限值、升餘弦高度偏移量的下限值為第二升餘弦高度偏移量的下限值；相應地，升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差為第二升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差、升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差為第二升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差、升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差為第二升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差、升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差為第二升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差。

可選地，本實施例中，以升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差等於升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差；升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差等於升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差為例進行說明。

可選地，本實施例中，以當前幀的前一幀的編碼參數用於指示當前幀的前一幀主要聲道信號的清濁音分類和次要聲道信號的清濁音分類為例進行說明。

1）根據當前幀的前一幀的編碼參數，確定自我調整參數中的升餘弦寬度參數的上限值和升餘弦寬度參數的下限值。

根據編碼參數，確定當前幀的前一幀中的主要聲道信號的清濁音分類和次要聲道信號的清濁音分類；若主要聲道信號和次要聲道信號均為清音類，則將升餘弦寬度參數的上限值設置為第一清音參數，將升餘弦寬度參數的下限值設置為第二清音參數，即，xh_width= xh_width_uv；xl_width= xl_width_uv；

若主要聲道信號和次要聲道信號均為濁音類，則將升餘弦寬度參數的上限值設置為第一濁音參數，將升餘弦寬度參數的下限值設置為第二濁音參數，即，xh_width= xh_width_v；xl_width= xl_width_v；

若主要聲道信號為濁音類，且次要聲道信號為清音類，則將升餘弦寬度參數的上限值設置為第三濁音參數，將升餘弦寬度參數的下限值設置為第四濁音參數，即，xh_width= xh_width_v2；xl_width= xl_width_v2；

若主要聲道信號為清音類，且次要聲道信號為濁音類，則將升餘弦寬度參數的上限值設置為第三清音參數，將升餘弦寬度參數的下限值設置為第四清音參數，即，xh_width=xh_width_uv2；xl_width= xl_width_uv2。

其中，第一清音參數xh_width_uv、第二清音參數xl_width_uv、第三清音參數xh_width_uv2、第四清音參數xl_width_uv2、第一濁音參數xh_width_v、第二濁音參數xl_width_v、第三濁音參數xh_width_v2和第四濁音參數xl_width_v2均為正數；xh_width_v＜xh_width_v2＜xh_width_uv2＜xh_width_uv；xl_width_uv＜xl_width_uv2＜xl_width_v2＜xl_width_v。

本實施例不對xh_width_v、xh_width_v2 、xh_width_uv2、xh_width_uv、xl_width_uv、xl_width_uv2、xl_width_v2、xl_width_v的取值作限定。示意性地，xh_width_v=0.2；xh_width_v2=0.25；xh_width_uv2=0.35；xh_width_uv =0.3；xl_width_uv =0.03；xl_width_uv2=0.02；xl_width_v2=0.04；xl_width_v=0.05。

可選地，通過當前幀的前一幀的編碼參數，對上述第一清音參數、第二清音參數、第三清音參數、第四清音參數、第一濁音參數、第二濁音參數、第三濁音參數和第四濁音參數中的至少一種參數進行調整。

示意性地，音訊編碼設備根據當前幀的前一幀聲道信號的編碼參數，對第一清音參數、第二清音參數、第三清音參數、第四清音參數、第一濁音參數、第二濁音參數、第三濁音參數和第四濁音參數中的至少一種參數進行調整，通過下述公式表示： xh_width_uv=fach_uv*xh_width_init；xl_width_uv= facl_uv*xl_width_init； xh_width_v= fach_v*xh_width_init；xl_width_v= facl_v*xl_width_init； xh_width_v2= fach_v2*xh_width_init；xl_width_v2= facl_v2*xl_width_init； xh_width_uv2= fach_uv2*xh_width_init；xl_width_uv2= facl_uv2*xl_width_init；

其中，fach_uv、fach_v、fach_v2、fach_uv2、xh_width_init和xl_width_init為根據編碼參數確定的正數。

本實施例不對fach_uv、fach_v、fach_v2、fach_uv2、xh_width_init和xl_width_init的取值作限定，示意性地，fach_uv=1.4；fach_v =0.8；fach_v2=1.0；fach_uv2=1.2；xh_width_init=0.25；xl_width_init=0.04。

2）根據當前幀的前一幀的編碼參數，確定自我調整參數中的升餘弦高度偏移量的上限值和升餘弦高度偏移量的下限值。

根據編碼參數，確定當前幀的前一幀中的主要聲道信號的清濁音分類和次要聲道信號的清濁音分類；若主要聲道信號和次要聲道信號均為清音類，則將升餘弦高度偏移量的上限值設置為第五清音參數，將升餘弦高度偏移量的下限值設置為第六清音參數，即，xh_bias= xh_bias_uv；xl_bias= xl_bias_uv；

若主要聲道信號和次要聲道信號均為濁音類，則將升餘弦高度偏移量的上限值設置為第五濁音參數，將升餘弦高度偏移量的下限值設置為第六濁音參數，即，xh_bias= xh_bias_v；xl_bias= xl_bias_v；

若主要聲道信號為濁音類，且次要聲道信號為清音類，則將升餘弦高度偏移量的上限值設置為第七濁音參數，將升餘弦高度偏移量的下限值設置為第八濁音參數，即，xh_bias= xh_bias_v2；xl_bias= xl_bias_v2；

若主要聲道信號為清音類，且次要聲道信號為濁音類，則將升餘弦高度偏移量的上限值設置為第七清音參數，將升餘弦高度偏移量的下限值設置為第八清音參數，即， xh_bias= xh_bias_uv2；xl_bias= xl_bias_uv2；

其中，第五清音參數xh_bias_uv、第六清音參數xl_bias_uv、第七清音參數xh_bias_uv2、第八清音參數xl_bias_uv2、第五濁音參數xh_bias_v、第六濁音參數xl_bias_v、第七濁音參數xh_bias_v2和第八濁音參數xl_bias_v2均為正數；其中，xh_bias_v＜xh_ bias _v2＜xh_ bias_uv2＜xh_ bias _uv；xl_ bias _v＜xl_ bias_v2＜xl_ bias_uv2＜xl_ bias_uv；xh_bias為升餘弦高度偏移量的上限值；xl_bias為升餘弦高度偏移量的下限值。

本實施例不對xh_bias_v、xh_ bias _v2、xh_ bias_uv2、xh_ bias _uv、xl_ bias _v、xl_ bias_v2、xl_ bias_uv2和xl_ bias_uv的取值作限定，示意性地，xh_bias_v=0.8；xl_ bias _v=0.5；xh_ bias _v2=0.7；xl_ bias_v2=0.4；xh_ bias _uv=0.6；xl_ bias_uv=0.3；xh_ bias_uv2=0.5；xl_ bias_uv2=0.2。

可選地，根據當前幀的前一幀聲道信號的編碼參數，對第五清音參數、第六清音參數、第七清音參數、第八清音參數、第五濁音參數、第六濁音參數、第七濁音參數和第八濁音參數中的至少一種進行調整。

示意性地，通過下述公式來表示： xh_bias_uv=fach_uv’*xh_bias_init；xl_bias_uv= facl_uv’*xl_bias_init； xh_bias_v= fach_v’*xh_bias_init；xl_bias_v= facl_v’*xl_bias_init； xh_bias_v2= fach_v2’*xh_bias_init；xl_bias_v2= facl_v2’*xl_bias_init； xh_bias_uv2= fach_uv2’*xh_bias_init；xl_bias_uv2= facl_uv2’*xl_bias_init；

其中，fach_uv’、fach_v’、fach_v2’、fach_uv2’、xh_ bias_init和xl_ bias _init為根據編碼參數確定的正數。

本實施例不對fach_uv’、fach_v’、fach_v2’、fach_uv2’、xh_ bias_init和xl_ bias _init的取值作限定，示意性地，fach_v’=1.15；fach_v2’=1.0；fach_uv2’=0.85；fach_uv’=0.7；xh_ bias_init=0.7；xl_ bias _init=0.4。

3）根據當前幀的前一幀的編碼參數，確定自我調整參數中的升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差，和，升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差。

根據編碼參數，確定當前幀的前一幀中的主要聲道信號的清濁音分類和次要聲道信號的清濁音分類；若主要聲道信號和次要聲道信號均為清音類，則將升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差設置為第九清音參數，將升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差設置為第十清音參數；即，yh_dist = yh_dist_uv；yl_dist = yl_dist_uv；

若主要聲道信號和次要聲道信號均為濁音類，則將升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差設置為第九濁音參數，將升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差設置為第十濁音參數；即， yh_dist= yh_dist_v；yl_dist= yl_dist_v，

若主要聲道信號為濁音類，且次要聲道信號為清音類，則將升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差設置為第十一濁音參數，將升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差設置為第十二濁音參數；即， yh_dist= yh_dist_v2；yl_dist= yl_dist_v2；

若主要聲道信號為清音類，且次要聲道信號為濁音類，則將升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差設置為第十一清音參數，將升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差設置為第十二清音參數；即，yh_dist= yh_dist_uv2；yl_dist= yl_dist_uv2。

其中，第九清音參數yh_dist_uv、第十清音參數yl_dist_uv、第十一清音參數yh_dist_uv2、第十二清音參數yl_dist_uv2、第九濁音參數yh_dist_v、第十濁音參數yl_dist_v、第十一濁音參數yh_dist_v2和第十二濁音參數yl_dist_v2均為正數；yh_dist_v＜yh_dist_v2＜yh_dist_uv2＜yh_dist_uv；yl_dist_uv＜yl_dist_uv2＜yl_dist_v2＜yl_dist_v。

本實施例不對yh_dist_v、yh_dist_v2、yh_dist_uv2、yh_dist_uv、yl_dist_uv、yl_dist_uv2、yl_dist_v2、yl_dist_v的取值作限定。

可選地，根據當前幀的前一幀的編碼參數，對第九清音參數、第十清音參數、第十一清音參數、第十二清音參數、第九濁音參數、第十濁音參數、第十一濁音參數和第十二濁音參數中的至少一種參數進行調整。

示意性地，通過下述公式來表示： yh_dist_uv=fach_uv’’*yh_dist_init；yl_dist_uv= facl_uv’’*yl_dist_init； yh_dist_v= fach_v’’*yh_dist_init；yl_dist_v= facl_v’’*yl_dist_init； yh_dist_v2= fach_v2’’*yh_dist_init；yl_dist_v2= facl_v2’’*yl_dist_init； yh_dist_uv2= fach_uv2’’*yh_dist_init；yl_dist_uv2= facl_uv2’’*yl_dist_init；

其中，fach_uv’’、fach_v’’、fach_v2’’、fach_uv2’’、yh_dist_init和yl_dist_init為根據編碼參數確定的正數，且本實施不對上述參數的取值作限定。

本實施例中，通過根據當前幀的前一幀的編碼參數，對預設窗函數模型中的自我調整參數進行調整，實現了自我調整地根據當前幀的前一幀的編碼參數確定出合適的自我調整窗函數，提高了生成自我調整窗函數的準確性，從而提高了估算聲道間時間差的準確性。

可選地，基於上述各個實施例，在步驟301之前，對多聲道信號進行時域預處理。

可選地，本發明實施例中的當前幀的多聲道信號是指輸入到音訊編碼設備的多聲道信號；或者，是指輸入到音訊編碼設備之後，經過預處理後的多聲道信號。

可選地，輸入到音訊編碼設備的多聲道信號，可以是該音訊編碼設備中的採集元件採集到的；或者，也可以是與音訊編碼設備相獨立的採集設備採集到、並發送至音訊編碼設備的。

可選地，輸入到音訊編碼設備的多聲道信號經過模數（Analogto/Digital，A/D）轉換之後得到的多聲道信號。可選地，該多聲道信號為脈衝碼調制（Pulse Code Modulation，PCM）信號。

多聲道信號的採樣頻率可以為8KHz、16KHz、32KHz、44.1KHz、 48KHz等，本實施例對此不作限定。

示意性地，多聲道信號的採樣頻率為16KHz，此時，一幀多聲道信號的時長為20ms，幀長記作N，則N=320，即幀長為320個採樣點。當前幀的多聲道信號包括左聲道信號和右聲道信號，左聲道信號記作x_L （n），右聲道信號記作x_R （n），其中，n為採樣點序號，n=0，1，2……，N-1。

可選地，若對當前幀進行高通濾波處理，則處理後的左聲道信號記作x_{L_HP} （n）；處理後的右聲道信號記作x_{R_HP} （n），其中，n為採樣點序號，n=0,1,2……，N-1。

請參考第7圖，其示出了本申請一個示例性實施例提供的音訊編碼設備的結構示意圖。本發明實施例中，音訊編碼設備可以為手機、平板電腦、膝上型可攜式電腦和臺式電腦、藍牙音箱、錄音筆、可穿戴式設備等具有音訊採集和音訊信號處理功能的電子設備，也可以是核心網、無線網中具有音訊信號處理能力的網元，本實施例對此不作限定。

該音訊編碼設備包括：處理器701、記憶體702和匯流排703。

處理器701包括一個或者一個以上處理核心，處理器701通過運行軟體程式以及模組，從而執行各種功能應用以及資訊處理。

記憶體702通過匯流排703與處理器701相連。記憶體702存儲有音訊編碼設備必要的指令。

處理器701用於執行記憶體702中的指令以實現本申請各個方法實施例提供的時延估計方法。

此外，記憶體702可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現，如靜態隨時存取記憶體（SRAM），電可擦除可程式設計唯讀記憶體（EEPROM），可擦除可程式設計唯讀記憶體（EPROM），可程式設計唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。

記憶體702還用於緩存至少一個過去幀的聲道間時間差資訊和/或至少一個過去幀的加權係數。

可選地，音訊編碼設備包括採集元件，該採集元件用於採集多聲道信號。

可選地，採集元件由至少一個麥克風組成。每個麥克風用於採集一路聲道信號。

可選地，音訊編碼設備包括接收元件，該接收元件用於接收其它設備發送的多聲道信號。

可選地，音訊編碼設備還具有解碼功能。

可以理解的是，第7圖僅僅示出了音訊編碼設備的簡化設計。在其他的實施例中，音訊編碼設備可以包含任意數量的發射器，接收器，處理器，控制器，記憶體，通信單元，顯示單元，播放單元等，本實施例對此不作限定。

可選地，本申請提供了一種電腦可讀存儲介質，該電腦可讀存儲介質中存儲有指令，當其在音訊編碼設備上運行時，使得音訊編碼設備執行上述各個實施例所提供的時延估計方法。

請參考第8圖，其示出了本申請一個實施例提供的時延估計裝置的框圖。該時延估計裝置可以通過軟體、硬體或者兩者的結合實現成為第7圖所示的音訊編碼設備的全部或者一部分。該時延估計裝置可以包括：互相關係數確定單元810、時延軌跡估計單元820、自我調整函數確定單元830、加權單元840和聲道間時間差確定單元850。

互相關係數確定單元810，用於確定當前幀的多聲道信號的互相關係數；

時延軌跡估計單元820，用於根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值；

自我調整函數確定單元830，用於確定當前幀的自我調整窗函數；

加權單元840，用於根據所述當前幀的時延軌跡估計值和所述當前幀的自我調整窗函數，對所述互相關係數進行加權，得到加權後的互相關係數；

聲道間時間差確定單元850，還用於根據所述加權後的互相關係數確定當前幀的聲道間時間差。

可選地，所述自我調整函數確定單元810，還用於：

根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦寬度參數；

根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦高度偏移量；

根據第一升餘弦寬度參數和第一升餘弦高度偏移量，確定當前幀的自我調整窗函數。

可選地，該裝置還包括：平滑後的聲道間時間差估計偏差確定單元860。

平滑後的聲道間時間差估計偏差確定單元860，用於根據當前幀的前一幀的平滑後的聲道間時間差估計偏差、當前幀的時延軌跡估計值和當前幀的聲道間時間差，計算當前幀的平滑後的聲道間時間差估計偏差。

可選地，自我調整函數確定單元830，還用於：

根據互相關係數，確定當前幀的聲道間時間差的初始值；

根據當前幀的時延軌跡估計值和當前幀的聲道間時間差的初始值，計算當前幀的聲道間時間差估計偏差；

根據當前幀的聲道間時間差估計偏差，確定當前幀的自我調整窗函數。

可選地，自我調整函數確定單元830，還用於：

根據當前幀的聲道間時間差估計偏差，計算第二升餘弦寬度參數；

根據當前幀的聲道間時間差估計偏差，計算第二升餘弦高度偏移量；

根據第二升餘弦寬度參數和第二升餘弦高度偏移量，確定當前幀的自我調整窗函數。

可選地，該裝置還包括：自我調整參數確定單元870。

自我調整參數確定單元870，用於根據當前幀的前一幀的編碼參數，確定當前幀的自我調整窗函數的自我調整參數。

可選地，時延軌跡估計單元820，還用於：

根據緩存的至少一個過去幀的聲道間時間差資訊，通過線性回歸方法進行時延軌跡估計，確定當前幀的時延軌跡估計值。

可選地，時延軌跡估計單元820，還用於：

根據緩存的至少一個過去幀的聲道間時間差資訊，通過加權線性回歸方法進行時延軌跡估計，確定當前幀的時延軌跡估計值。

可選地，該裝置還包括，更新單元880。

更新單元880，用於對緩存的至少一個過去幀的聲道間時間差資訊進行更新。

可選地，緩存的至少一個過去幀的聲道間時間差資訊為至少一個過去幀的聲道間時間差平滑值，更新單元880，用於：

根據當前幀的時延軌跡估計值和當前幀的聲道間時間差，確定當前幀的聲道間時間差平滑值；

根據當前幀的聲道間時間差平滑值，對緩存的至少一個過去幀的聲道間時間差平滑值進行更新。

可選地，更新單元880，還用於：

根據當前幀的前一幀的語音啟動檢測結果或當前幀的語音啟動檢測結果，確定是否對緩存的至少一個過去幀的聲道間時間差資訊進行更新。

可選地，更新單元880，還用於：

對緩存的至少一個過去幀的加權係數進行更新，至少一個過去幀的加權係數是加權線性回歸方法中的係數。

可選地，當當前幀的自我調整窗函數是根據當前幀的前一幀的平滑後的聲道間時間差確定的時，更新單元880，還用於：

根據當前幀的平滑後的聲道間時間差估計偏差，計算當前幀的第一加權係數；

根據當前幀的第一加權係數，對緩存的至少一個過去幀的第一加權係數進行更新。

可選地，當當前幀的自我調整窗函數是根據當前幀的平滑後的聲道間時間差估計偏差確定的時，更新單元880，還用於：

根據當前幀的聲道間時間差估計偏差，計算當前幀的第二加權係數；

根據當前幀的第二加權係數，對緩存的至少一個過去幀的第二加權係數進行更新。

可選地，更新單元880，還用於：

在當前幀的前一幀的語音啟動檢測結果為啟動幀或當前幀的語音啟動檢測結果為啟動幀時，對緩存的至少一個過去幀的加權係數進行更新。

相關細節可結合參考上述方法實施例。

可選地，上述各個單元可由音訊編碼設備中的處理器執行記憶體中的指令來實現。

本領域普通技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的實施例中，應該理解到，所揭露的裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，可以僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

110‧‧‧編碼元件

120‧‧‧解碼元件

130‧‧‧移動終端

140‧‧‧移動終端

131‧‧‧採集元件

132‧‧‧通道編碼元件

141‧‧‧音訊播放元件

142‧‧‧通道解碼元件

150‧‧‧網元

151‧‧‧通道解碼元件

152‧‧‧通道編碼元件

301～305‧‧‧步驟

401‧‧‧窄窗

402‧‧‧寬窗

601‧‧‧聲道間時間差平滑值

701‧‧‧處理器

702‧‧‧記憶體

703‧‧‧匯流排

810‧‧‧互相關係數確定單元

820‧‧‧時延軌跡估計單元

830‧‧‧自我調整函數確定單元

840‧‧‧加權單元

850‧‧‧聲道間時間差確定單元

860‧‧‧平滑後的聲道間時間差估計偏差確定單元

870‧‧‧自我調整參數確定單元

880‧‧‧更新單元

第1A圖是本申請一個示例性實施例提供的立體聲信號編解碼系統的結構示意圖；第1B圖是本申請另一個示例性實施例提供的立體聲信號編解碼系統的結構示意圖；第1C圖是本申請另一個示例性實施例提供的立體聲信號編解碼系統的結構示意圖；第2圖是本申請一個示例性實施例提供的聲道間時間差的示意圖；第3圖是本申請一個示例性實施例提供的時延估計方法的流程圖；第4A圖是本申請一個示例性實施例提供的自我調整窗函數的示意圖；第4B圖是本申請一個示例性實施例提供的升餘弦寬度參數與聲道間時間差估計偏差資訊之間的關係示意圖；第4C圖是本申請一個示例性實施例提供的升餘弦高度偏移量與聲道間時間差估計偏差資訊之間的關係示意圖；第5圖是本申請一個示例性實施例提供的緩存的示意圖；第6圖是本申請一個示例性實施例提供的更新緩存的示意圖；第7圖是本申請一個示例性實施例提供的音訊編碼設備的結構示意圖；第8圖是本申請一個實施例提供的時延估計裝置的框圖。

Claims

一種時延估計方法，其特徵在於，所述方法包括：確定當前幀的多聲道信號的互相關係數；根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值；確定當前幀的自我調整窗函數；根據所述當前幀的時延軌跡估計值和所述當前幀的自我調整窗函數，對所述互相關係數進行加權，得到加權後的互相關係數；根據所述加權後的互相關係數確定當前幀的聲道間時間差。
根據請求項1所述的方法，其特徵在於，所述確定當前幀的自我調整窗函數，包括：根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦寬度參數；根據所述當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦高度偏移量；根據所述第一升餘弦寬度參數和所述第一升餘弦高度偏移量，確定所述當前幀的自我調整窗函數。
根據請求項2所述的方法，其特徵在於，所述第一升餘弦寬度參數通過如下計算公式計算獲得： win_width1=TRUNC（width_par1*（A*L_NCSHIFT_DS+1）） width_par1=a_width1*smooth_dist_reg+b_width1 其中， a_ width1=(xh_width1-xl_width1)/(yh_dist1-yl_dist1) b_width1= xh_width1- a_ width1* yh_dist1 其中，win_width1為所述第一升餘弦寬度參數；TRUNC表示對數值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；A為預先設定的常數，A大於等於；xh_width1為第一升餘弦寬度參數的上限值；xl_width1為第一升餘弦寬度參數的下限值；yh_dist1為所述第一升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差；yl_dist1為所述第一升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差；smooth_dist_reg為所述當前幀的前一幀的平滑後的聲道間時間差估計偏差；所述xh_width1、所述xl_width1、所述yh_dist1和所述yl_dist1均為正數。
根據請求項3所述的方法，其特徵在於， width_par1=min(width_par1，xh_width1)； width_par1=max(width_par1，xl_width1)；其中，min表示取最小值，max表示取最大值。
根據請求項3或4所述的方法，其特徵在於，所述第一升餘弦高度偏移量通過如下計算公式計算獲得： win_bias1=a_bias1*smooth_dist_reg+b_bias1 其中，a_bias1=(xh_bias1-xl_bias1)/ (yh_dist2-yl_dist2) b_bias1= xh_bias1- a_bias1* yh_dist2 其中，win_bias1為所述第一升餘弦高度偏移量；xh_bias1為第一升餘弦高度偏移量的上限值；xl_ bias1為第一升餘弦高度偏移量的下限值；yh_dist2為所述第一升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差；yl_dist2為所述第一升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差；smooth_dist_reg為所述當前幀的前一幀的平滑後的聲道間時間差估計偏差；所述yh_dist2、所述yl_dist2、所述xh_ bias1和所述xl_ bias1均為正數。
根據請求項5所述的方法，其特徵在於， win_bias1=min(win_bias1，xh_bias1)； win_bias1=max(win_bias1, xl_bias1)；其中，min表示取最小值，max表示取最大值。
根據請求項5或6所述的方法，其特徵在於，yh_dist2= yh_dist1；yl_dist2= yl_dist1。
根據請求項1至7任一所述的方法，其特徵在於，所述自我調整窗函數通過下述公式表示：當0≤k≤TRUNC(A*L_NCSHIFT_DS/2)-2*win_width1-1時， loc_weight_win(k)=win_bias1 當TRUNC(A*L_NCSHIFT_DS/2) -2*win_width1 ≤ k ≤ TRUNC(A*L_NCSHIFT_DS/2) + 2*win_width1-1時， loc_weight_win(k)=0.5*（1+ win_bias1）+0.5*（1- win_bias1）*cos（π*（k- TRUNC(A*L_NCSHIFT_DS/2)）/（2* win_width1））當TRUNC(A*L_NCSHIFT_DS/2)+2*win_width1≤k≤A* L_NCSHIFT_DS時， loc_weight_win(k)= win_bias1 其中，loc_weight_win(k)，k = 0,1,…, A* L_NCSHIFT_DS，用於表徵所述自我調整窗函數；A為預設的常數，且A大於等於4；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width1為第一升餘弦寬度參數；win_bias1為第一升餘弦高度偏移量。
根據請求項2至8任一所述的方法，其特徵在於，所述根據所述加權後的互相關係數確定當前幀的聲道間時間差之後，還包括：根據所述當前幀的前一幀的平滑後的聲道間時間差估計偏差、所述當前幀的時延軌跡估計值和所述當前幀的聲道間時間差，計算當前幀的平滑後的聲道間時間差估計偏差；所述當前幀的平滑後的聲道間時間差估計偏差，通過如下計算公式計算獲得： smooth_dist_reg_update=（1-γ）*smooth_dist_reg+γ*dist_reg’ dist_reg’=|reg_prv_corr-cur_itd| 其中，smooth_dist_reg_update為所述當前幀的平滑後的聲道間時間差估計偏差；γ為第一平滑因數，0＜γ＜1；smooth_dist_reg為所述當前幀的前一幀的平滑後的聲道間時間差估計偏差；reg_prv_corr為所述當前幀的時延軌跡估計值；cur_itd為所述當前幀的聲道間時間差。
根據請求項1所述的方法，其特徵在於，所述確定當前幀的自我調整窗函數，包括：根據所述互相關係數，確定當前幀的聲道間時間差的初始值；根據所述當前幀的時延軌跡估計值和所述當前幀的聲道間時間差的初始值，計算當前幀的聲道間時間差估計偏差；根據所述當前幀的聲道間時間差估計偏差，確定所述當前幀的自我調整窗函數；所述當前幀的聲道間時間差估計偏差通過如下計算公式計算獲得： dist_reg=|reg_prv_corr-cur_itd_init| 其中，dist_reg 為所述當前幀的聲道間時間差估計偏差，reg_prv_corr為所述當前幀的時延軌跡估計值，cur_itd_init為所述當前幀的聲道間時間差的初始值。
根據請求項10所述的方法，其特徵在於，所述根據所述當前幀的聲道間時間差估計偏差，確定所述當前幀的自我調整窗函數，包括：根據所述當前幀的聲道間時間差估計偏差，計算第二升餘弦寬度參數；根據所述當前幀的聲道間時間差估計偏差，計算第二升餘弦高度偏移量；根據所述第二升餘弦寬度參數和所述第二升餘弦高度偏移量，確定所述當前幀的自我調整窗函數。
根據請求項1至11任一所述的方法，其特徵在於，所述加權後的互相關係數通過如下計算公式計算獲得： c_weight(x)=c(x)* loc_weight_win(x-TRUNC(reg_prv_corr)+ TRUNC(A*L_NCSHIFT_DS/2)-L_NCSHIFT_DS) 其中，c_weight(x)為所述加權後的互相關係數；c(x)為所述互相關係數；loc_weight_win為所述當前幀的自我調整窗函數；TRUNC表示對數值進行四捨五入取整；reg_prv_corr為所述當前幀的時延軌跡估計值；x為大於等於零且小於等於2*L_NCSHIFT_DS的整數；所述L_NCSHIFT_DS為聲道間時間差的絕對值的最大值。
根據請求項1至12任一所述的方法，其特徵在於，所述確定所述當前幀的自我調整窗函數之前，還包括：根據當前幀的前一幀的編碼參數，確定所述當前幀的自我調整窗函數的自我調整參數；其中，所述編碼參數用於指示當前幀的前一幀的多聲道信號的類型，或者，所述編碼參數用於指示經過時域下混處理的當前幀的前一幀的多聲道信號的類型；所述自我調整參數用於確定所述當前幀的自我調整窗函數。
根據請求項1至13任一所述的方法，其特徵在於，所述根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值，包括：根據緩存的所述至少一個過去幀的聲道間時間差資訊，通過線性回歸方法進行時延軌跡估計，確定所述當前幀的時延軌跡估計值。
根據請求項1至13任一所述的方法，其特徵在於，所述根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值，包括：根據緩存的所述至少一個過去幀的聲道間時間差資訊，通過加權線性回歸方法進行時延軌跡估計，確定所述當前幀的時延軌跡估計值。
根據請求項1至15任一所述的方法，其特徵在於，所述根據所述加權後的互相關係數確定當前幀的聲道間時間差之後，還包括：對緩存的所述至少一個過去幀的聲道間時間差資訊進行更新，所述至少一個過去幀的聲道間時間差資訊為至少一個過去幀的聲道間時間差平滑值或至少一個過去幀的聲道間時間差。
根據請求項16所述的方法，其特徵在於，所述至少一個過去幀的聲道間時間差資訊為所述至少一個過去幀的聲道間時間差平滑值，所述對緩存的所述至少一個過去幀的聲道間時間差資訊進行更新，包括：根據所述當前幀的時延軌跡估計值和所述當前幀的聲道間時間差，確定當前幀的聲道間時間差平滑值；根據所述當前幀的聲道間時間差平滑值，對緩存的所述至少一個過去幀的聲道間時間差平滑值進行更新；所述當前幀的聲道間時間差平滑值，通過如下計算公式獲得： cur_itd_smooth=φ*reg_prv_corr+(1-φ)*cur_itd 其中，cur_itd_smooth為所述當前幀的聲道間時間差平滑值；φ為第二平滑因數，且φ為大於等於0且小於等於1的常數，reg_prv_corr為所述當前幀的時延軌跡估計值，cur_itd為所述當前幀的聲道間時間差。
根據請求項16或17所述的方法，其特徵在於，所述對緩存的所述至少一個過去幀的聲道間時間差資訊進行更新，包括：當當前幀的前一幀的語音啟動檢測結果為啟動幀或當前幀的語音啟動檢測結果為啟動幀時，對緩存的所述至少一個過去幀的聲道間時間差資訊進行更新。
根據請求項15至18任一所述的方法，其特徵在於，所述根據所述加權後的互相關係數確定當前幀的聲道間時間差之後，還包括：對緩存的至少一個過去幀的加權係數進行更新，所述至少一個過去幀的加權係數是所述加權線性回歸方法中的加權係數。
根據請求項19所述的方法，其特徵在於，當所述當前幀的自我調整窗函數是根據當前幀的前一幀的平滑後的聲道間時間差確定的時，所述對緩存的至少一個過去幀的加權係數進行更新，包括：根據當前幀的平滑後的聲道間時間差估計偏差，計算當前幀的第一加權係數；根據所述當前幀的第一加權係數，對緩存的所述至少一個過去幀的第一加權係數進行更新；所述當前幀的第一加權係數通過如下計算公式計算獲得： wgt_par1=a_wgt1*smooth_dist_reg_update+b_wgt1 a_wgt1=(xl_wgt1-xh_wgt1)/(yh_dist1’-yl_dist1’) b_wgt1= xl_wgt1- a_wgt1* yh_dist1’ 其中，wgt_par 1為所述當前幀的第一加權係數，smooth_dist_reg_update為所述當前幀的平滑後的聲道間時間差估計偏差；xh_wgt為第一加權係數的上限值；xl_wgt為第一加權係數的下限值；yh_dist1’為所述第一加權係數的上限值對應的平滑後的聲道間時間差估計偏差，yl_dist1’為所述第一加權係數的下限值對應的平滑後的聲道間時間差估計偏差；所述yh_dist1’、所述yl_dist1’、所述 xh_wgt1和所述xl_wgt1均為正數。
根據請求項20所述的方法，其特徵在於， wgt_par1=min(wgt_par1，xh_wgt1)； wgt_par1=max(wgt_par1, xl_wgt1)；其中，min表示取最小值，max表示取最大值。
根據請求項19所述的方法，其特徵在於，當所述當前幀的自我調整窗函數是根據當前幀的聲道間時間差估計偏差確定的時，所述對緩存的至少一個過去幀的加權係數進行更新，包括：根據所述當前幀的聲道間時間差估計偏差，計算當前幀的第二加權係數；根據所述當前幀的第二加權係數，對緩存的所述至少一個過去幀的第二加權係數進行更新。
根據請求項19至22任一所述的方法，其特徵在於，所述對緩存的至少一個過去幀的加權係數進行更新，包括：當當前幀的前一幀的語音啟動檢測結果為啟動幀或當前幀的語音啟動檢測結果為啟動幀時，對緩存的所述至少一個過去幀的加權係數進行更新。
一種時延估計裝置，其特徵在於，所述裝置包括：互相關係數確定單元，用於確定當前幀的多聲道信號的互相關係數；時延軌跡估計單元，用於根據緩存的至少一個過去幀的聲道間時間差資訊，確定當前幀的時延軌跡估計值；自我調整函數確定單元，用於確定當前幀的自我調整窗函數；加權單元，用於根據所述當前幀的時延軌跡估計值和所述當前幀的自我調整窗函數，對所述互相關係數進行加權，得到加權後的互相關係數；聲道間時間差確定單元，還用於根據所述加權後的互相關係數確定當前幀的聲道間時間差。
根據請求項24所述的裝置，其特徵在於，所述自我調整函數確定單元，用於：根據當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦寬度參數；根據所述當前幀的前一幀的平滑後的聲道間時間差估計偏差，計算第一升餘弦高度偏移量；根據所述第一升餘弦寬度參數和所述第一升餘弦高度偏移量，確定所述當前幀的自我調整窗函數。
根據請求項25所述的裝置，其特徵在於，所述第一升餘弦寬度參數通過如下計算公式計算獲得： win_width1=TRUNC（width_par1*（A*L_NCSHIFT_DS+1）） width_par1=a_width1*smooth_dist_reg+b_width1 其中， a_ width1=(xh_width1-xl_width1)/(yh_dist1-yl_dist1) b_width1= xh_width1- a_ width1* yh_dist1 其中，win_width1為所述第一升餘弦寬度參數；TRUNC表示對數值進行四捨五入取整；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；A為預先設定的常數，A大於等於；xh_width1為第一升餘弦寬度參數的上限值；xl_width1為第一升餘弦寬度參數的下限值；yh_dist1為所述第一升餘弦寬度參數的上限值對應的平滑後的聲道間時間差估計偏差；yl_dist1為所述第一升餘弦寬度參數的下限值對應的平滑後的聲道間時間差估計偏差；smooth_dist_reg為所述當前幀的前一幀的平滑後的聲道間時間差估計偏差；所述xh_width1、所述xl_width1、所述yh_dist1和所述yl_dist1均為正數。
根據請求項26所述的裝置，其特徵在於， width_par1=min(width_par1，xh_width1)； width_par1=max(width_par1，xl_width1)；其中，min表示取最小值，max表示取最大值。
根據請求項26或27所述的裝置，其特徵在於，所述第一升餘弦高度偏移量通過如下計算公式計算獲得： win_bias1=a_bias1*smooth_dist_reg+b_bias1 其中，a_bias1=(xh_bias1-xl_bias1)/ (yh_dist2-yl_dist2) b_bias1= xh_bias1- a_bias1* yh_dist2 其中，win_bias1為所述第一升餘弦高度偏移量；xh_bias1為第一升餘弦高度偏移量的上限值；xl_ bias1為第一升餘弦高度偏移量的下限值；yh_dist2為所述第一升餘弦高度偏移量的上限值對應的平滑後的聲道間時間差估計偏差；yl_dist2為所述第一升餘弦高度偏移量的下限值對應的平滑後的聲道間時間差估計偏差；smooth_dist_reg為所述當前幀的前一幀的平滑後的聲道間時間差估計偏差；所述yh_dist2、所述yl_dist2、所述xh_ bias1和所述xl_ bias1均為正數。
根據請求項28所述的裝置，其特徵在於， win_bias1=min(win_bias1，xh_bias1)； win_bias1=max(win_bias1, xl_bias1)；其中，min表示取最小值，max表示取最大值。
根據請求項28或29所述的裝置，其特徵在於，yh_dist2= yh_dist1；yl_dist2= yl_dist1。
根據請求項24至30任一所述的裝置，其特徵在於，所述自我調整窗函數通過下述公式表示：當0≤k≤TRUNC(A*L_NCSHIFT_DS/2)-2*win_width1-1時， loc_weight_win(k)=win_bias1 當TRUNC(A*L_NCSHIFT_DS/2) -2*win_width1 ≤ k ≤ TRUNC(A*L_NCSHIFT_DS/2) + 2*win_width1-1時， loc_weight_win(k)=0.5*（1+ win_bias1）+0.5*（1- win_bias1）*cos（π*（k- TRUNC(A*L_NCSHIFT_DS/2)）/（2* win_width1））當TRUNC(A*L_NCSHIFT_DS/2)+2*win_width1≤k≤A* L_NCSHIFT_DS時， loc_weight_win(k)= win_bias1 其中，loc_weight_win(k)，k = 0,1,…, A* L_NCSHIFT_DS，用於表徵所述自我調整窗函數；A為預設的常數，且A大於等於4；L_NCSHIFT_DS為聲道間時間差的絕對值的最大值；win_width1為第一升餘弦寬度參數；win_bias1為第一升餘弦高度偏移量。
根據請求項25至31任一所述的裝置，其特徵在於，所述裝置還包括：平滑後的聲道間時間差估計偏差確定單元，用於根據所述當前幀的前一幀的平滑後的聲道間時間差估計偏差、所述當前幀的時延軌跡估計值和所述當前幀的聲道間時間差，計算當前幀的平滑後的聲道間時間差估計偏差；所述當前幀的平滑後的聲道間時間差估計偏差，通過如下計算公式計算獲得： smooth_dist_reg_update=（1-γ）*smooth_dist_reg+γ*dist_reg’ dist_reg’=|reg_prv_corr-cur_itd| 其中，smooth_dist_reg_update為所述當前幀的平滑後的聲道間時間差估計偏差；γ為第一平滑因數，0＜γ＜1；smooth_dist_reg為所述當前幀的前一幀的平滑後的聲道間時間差估計偏差；reg_prv_corr為所述當前幀的時延軌跡估計值；cur_itd為所述當前幀的聲道間時間差。
根據請求項24至32任一所述的裝置，其特徵在於，所述加權後的互相關係數通過如下計算公式計算獲得： c_weight(x)=c(x)* loc_weight_win(x-TRUNC(reg_prv_corr)+ TRUNC(A*L_NCSHIFT_DS/2)-L_NCSHIFT_DS) 其中，c_weight(x)為所述加權後的互相關係數；c(x)為所述互相關係數；loc_weight_win為所述當前幀的自我調整窗函數；TRUNC表示對數值進行四捨五入取整；reg_prv_corr為所述當前幀的時延軌跡估計值；x為大於等於零且小於等於2*L_NCSHIFT_DS的整數；所述L_NCSHIFT_DS為聲道間時間差的絕對值的最大值。
根據請求項24至33任一所述的裝置，其特徵在於，所述時延軌跡估計單元，用於：根據緩存的所述至少一個過去幀的聲道間時間差資訊，通過線性回歸方法進行時延軌跡估計，確定所述當前幀的時延軌跡估計值。
根據請求項24至33任一所述的裝置，其特徵在於，所述時延軌跡估計單元，用於：根據緩存的所述至少一個過去幀的聲道間時間差資訊，通過加權線性回歸方法進行時延軌跡估計，確定所述當前幀的時延軌跡估計值。
根據請求項1至15任一所述的裝置，其特徵在於，所述裝置還包括：更新單元，用於對緩存的所述至少一個過去幀的聲道間時間差資訊進行更新，所述至少一個過去幀的聲道間時間差資訊為至少一個過去幀的聲道間時間差平滑值或至少一個過去幀的聲道間時間差。
根據請求項36所述的裝置，其特徵在於，所述至少一個過去幀的聲道間時間差資訊為所述至少一個過去幀的聲道間時間差平滑值，所述對更新單元，用於：根據所述當前幀的時延軌跡估計值和所述當前幀的聲道間時間差，確定當前幀的聲道間時間差平滑值；根據所述當前幀的聲道間時間差平滑值，對緩存的所述至少一個過去幀的聲道間時間差平滑值進行更新；所述當前幀的聲道間時間差平滑值，通過如下計算公式獲得： cur_itd_smooth=φ*reg_prv_corr+(1-φ)*cur_itd 其中，cur_itd_smooth為所述當前幀的聲道間時間差平滑值；φ為第二平滑因數，且φ為大於等於0且小於等於1的常數，reg_prv_corr為所述當前幀的時延軌跡估計值，cur_itd為所述當前幀的聲道間時間差。
根據請求項35至37任一所述的裝置，其特徵在於，所述更新單元，還用於：對緩存的至少一個過去幀的加權係數進行更新，所述至少一個過去幀的加權係數是所述加權線性回歸裝置中的加權係數。
根據請求項38所述的裝置，其特徵在於，當所述當前幀的自我調整窗函數是根據當前幀的前一幀的平滑後的聲道間時間差確定的時，所述更新單元，用於：根據當前幀的平滑後的聲道間時間差估計偏差，計算當前幀的第一加權係數；根據所述當前幀的第一加權係數，對緩存的所述至少一個過去幀的第一加權係數進行更新；所述當前幀的第一加權係數通過如下計算公式計算獲得： wgt_par1=a_wgt1*smooth_dist_reg_update+b_wgt1 a_wgt1=(xl_wgt1-xh_wgt1)/(yh_dist1’-yl_dist1’) b_wgt1= xl_wgt1- a_wgt1* yh_dist1’ 其中，wgt_par 1為所述當前幀的第一加權係數，smooth_dist_reg_update為所述當前幀的平滑後的聲道間時間差估計偏差；xh_wgt為第一加權係數的上限值；xl_wgt為第一加權係數的下限值；yh_dist1’為所述第一加權係數的上限值對應的平滑後的聲道間時間差估計偏差，yl_dist1’為所述第一加權係數的下限值對應的平滑後的聲道間時間差估計偏差；所述yh_dist1’、所述yl_dist1’、所述 xh_wgt1和所述xl_wgt1均為正數。
根據請求項39所述的裝置，其特徵在於， wgt_par1=min(wgt_par1，xh_wgt1)； wgt_par1=max(wgt_par1, xl_wgt1)；其中，min表示取最小值，max表示取最大值。
一種音訊編碼設備，其特徵在於，所述音訊編碼設備包括：處理器、與所述處理器相連的記憶體；所述記憶體被配置為由所述處理器控制，所述處理器用於實現請求項1至23任一所述的時延估計方法。