TWI782268B

TWI782268B - 用於在參數多通道操作和單獨通道操作之間切換的多通道音訊編碼器、解碼器、方法和電腦程式

Info

Publication number: TWI782268B
Application number: TW109111500A
Authority: TW
Inventors: 艾曼紐拉維里; 艾琳尼弗托波羅; 馬庫斯木翠斯; 貴勞美夫杰斯
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2019-04-04
Filing date: 2020-04-06
Publication date: 2022-11-01
Also published as: AU2020250906A1; BR112021019715A2; WO2020201461A1; EP3719799A1; CA3135905A1; EP3948860A1; TW202044232A; CN113874937A; SG11202110840PA; JP2022528881A; ZA202107401B; KR20210147052A; MX2021012036A; US20220108706A1

Abstract

提供一種多通道音訊編碼器，用於根據輸入音訊表示提供編碼音訊表示。多通道音訊編碼器被配置成依據輸入音訊表示的特性，在多個通道的參數多通道編碼和多個通道的單獨編碼之間進行切換。

Description

用於在參數多通道操作和單獨通道操作之間切換的多通道音訊編碼器、解碼器、方法和電腦程式

本申請涉及用於立體聲、雙通道或多於雙通道應用的多通道音訊編碼和解碼。更具體地，它涉及一般音訊編碼/解碼或語音編碼/解碼或使用具有比例因數的變換域編碼/解碼和/或根據線性預測係數的編碼/解碼的編碼/解碼。

對於兩個或多個麥克風之間有一距離的麥克風排列中所捕獲的立體聲語音訊號的傳送，當需要低位元率時可以使用參數立體聲技術。[1]描述了一種示例的參數立體聲技術。對於在麥克風排列周圍存在兩個或多個通話者並且在同一時間段內同時有多個通話者說話的情況，參數立體聲系統可以在大多數情況下充分地執行。然而，在一些情況下，參數模型可能無法再現立體聲影像並對於干擾(interfering)通話者的情境傳遞語音智慧輸出。例如，當用不同的ITD(通道間時差)捕捉兩個或多個通話者中的每一個時，ITD值較大(麥克風之間的距離較大)和/或通話者圍繞麥克風排列軸坐在相反的位置時，就會發生這種情況。

此外，在如[1]所述的參數立體聲方案中，提取一些參數以再現空間立體聲場景，並且將立體聲訊號推斷為進一步編碼的單通道下混。在干擾通話者的情況下，下混訊號可以使用如[2]中描述的CELP之類的語音編碼器來編碼。然而，這樣的編碼方案是語音產生的源濾波器模型，被設計來表示單一通話者的語音。對於干擾通話者，核心編碼模型可能被違反且感知品質會下降。

發明目的

本發明的目的是至少部分地克服習知方法的缺點。

發明概要

本發明的目的通過請求項1所述的多通道音訊編碼器、請求項26所述的多通道音訊解碼器、請求項28所述的編碼多通道音訊表示、請求項30所述的多通道音訊編碼方法、請求項31所述的多通道音訊解碼方法和請求項32所述的電腦程式加以解決。

提供一種多通道音訊編碼器。多通道音訊編碼器可以是立體聲，或雙通道，或多於雙通道的音訊編碼器。音訊編碼器可以是一般音訊編碼器，或語音編碼器，或使用具有比例因數的變換域編碼和根據線性預測係數的編碼的編碼器。編碼器被配置成依據輸入音訊表示的特性，在多個通道的參數多通道編碼和多個通道的單獨編碼之間進行切換，多個通道例如是輸入音訊編碼的通道。

參數多通道編碼可以對組合多個通道訊號的組合訊號進行編碼，和將兩個或多個通道之間的關係編碼成參數形式。參數可以包括通道間時差參數，和/或通道間階差參數，和/或通道間相位參數，和/或通道間相關參數。

依據輸入音訊表示的特性在參數多通道編碼和單獨編碼之間切換有利地容許編碼適應於輸入音訊表示的特性。在參數多通道編碼和單獨編碼之間的選擇性切換可以導致選擇更適合對底層輸入音訊表示編碼的編碼，使得所得到的編碼音訊表示可在例如感知性能方面具有有利的性質。

換言之，本發明涉及例如在性能準則方面，在獲得輸入音訊表示的特性與依據此特性進行隨後的動作(例如切換)的努力，以及使用可以對某種輸入音訊表示(或其一部分)有利的編碼對輸入音訊表示進行編碼的益處兩者之間作權衡。

依照一實施例，多通道編碼器可以被配置成判定該輸入音訊表示是否滿足基於參數多通道編碼的模型的假設，並且依據此判定進行切換。此假設可以包括單一揚聲器的存在，例如，在每個時頻部分中存有單一顯著的通道間時差/耳間時差(ITD)。例如，輸入音訊表示的特性可以提供兩個或多個通話者干擾的指示，因此可違反對於單一揚聲器基於參數多通道編碼的模型的假設。

依照一實施例，當基於參數多通道編碼的模型的假設不被滿足時，多通道編碼器可以被配置成切換到單獨編碼。例如，對於某些輸入音訊表示，可能無法實現多個揚聲器及其ITD/複數ITD基於參數多通道編碼的模型的假設。然而，可以實現基於單獨編碼的模型的假設。結果，切換到單獨編碼可以導致有利的性能。

依照一實施例，多通道編碼器可以被配置成判定輸入音訊表示是否對應於一優勢源，例如單一優勢源。在這種情況下，其他源(例如所有其他源)可能較弱，例如，至少相差預定的強度差。編碼器被配置成依據此判定進行切換。優勢源的存在或不存在提供關於參數編碼或單獨編碼在性能方面是否有利的指示。

依照一實施例，多通道編碼器可以被配置成判定在多個時頻部分中是否存有一單一優勢源，和/或判定在給定的時頻部分中是否存有兩個或多個源，其多通道編碼參數至少相差預定偏差或超過預定偏差。多通道編碼器可依據此判定進行切換。多個時頻部分可以替代地包括所有時頻部分。兩個或多個源可完全滿足源的顯著性條件，例如，是具有不同位置的關聯和/或顯著和/或值得注意的源。多通道編碼參數可以是ITD。判定單一源可容許選擇其底層模型適合處理單一源的編碼，例如，參數編碼。在給定的時頻部分中判定兩個或多個源可指出具有基於單一源的模型的編碼可能不會為給定的時頻部分提供期望性能，因此，切換給定部分的編碼可以導致有利性能。判定多通道參數是否至少相差預定偏差(或超過預定偏差)可容許判定兩個或多個源是否可能導致違反編碼的底層模型的假設，並因此可以是切換到不同編碼的指示。

在一個實施例中，多通道編碼器可以被配置成判定一基於參數多通道編碼的模型的一參數，並且依據模型的參數進行切換。例如，模型的參數可以是通道間時差、耳間時差、ITD。參數可以描述輸入音訊表示的兩個或多個通道之間的關係。判定基於參數多通道編碼的模型的參數可容許評估參數模型在輸入音訊表示的兩個或多個通道之間的給定關係上提供期望性能的能力，以及執行切換以實現有利性能的能力。

在一個實施例中，多通道編碼器可以被配置成判定是否定義輸入音訊表示的通道之間關係的一特性容許明確地判定多通道編碼參數，或者指示多通道編碼參數的兩個或多個不同的可能值，並且依據該判定進行切換。例如，定義通道之間關係的特性可以是廣義互相關相位變換(GCC-PHAT)經一落後參數的演變(evolution)，或者是兩個或多個通道之間的互相關經一落後參數的演變。多通道編碼參數可以是ITD。兩個或多個不同的可能值(例如有意義的)可以至少與預定值不同，並且可以與雜訊基底(noise floor)區別開來。特性可以包括兩個或多個值(例如峰值，或滿足顯著性條件的值)，這些值在其顯著性方面最多相差一個(例如，預定的或訊號適應的)差(例如一值)，或者僅一個滿足顯著性條件的值。通過使用一般化的互相關相位變換的演變或互相關函數的演變來判定輸入音訊表示的通道之間的關係可容許量化通道之間的關係以獲得特性。判定多通道編碼參數的兩個或多個不同值是否至少相差預定值，以及多通道編碼參數的兩個或多個不同值是否可與雜訊基底區分，如此容許是否能有利地可靠地判定多通道編碼參數，或者是否可以判定多通道編碼參數的兩個或多個不同的有意義值。替代地或另外地，判定特性是否包括兩個或多個值，這兩個或多個值的最大差異在於它們被判定的顯著性，例如，藉著使用顯著性條件，容許判定是否能明確地判定多通道編碼參數，或者是否可以判定多通道編碼參數的兩個或多個不同的有意義值。

在一個實施例中，多通道編碼器可以被配置成判定是否定義輸入音訊表示的通道之間的關係的特性包括僅一單一顯著值，其滿足一顯著性條件，或是否定義輸入音訊表示的通道之間的關係的特性包括兩個或多個(例如不同的)顯著值，其滿足此顯著性條件，並且依據此判定，例如在多個通道的參數多通道編碼和單獨編碼之間進行切換。定義通道之間的關係的特性可以是GCC-PHAT經一落後參數的演變，或兩個或多個通道之間經一落後的互相關函數的演變。此單一顯著值可涉及一單一顯著峰，其代表一單一ITD值。此顯著性條件可以包括兩個或多個局部峰或最大值之間的幅度關係，和/或兩個或多個局部峰或最大值之間的距離關係，和/或距雜訊基底的距離。此顯著性條件可以是預定的或訊號適應的(signal-adaptive)，例如，可以根據輸入音訊表示的特性。兩個或多個顯著值可以包括至少兩個顯著峰，其代表兩個或多個不同ITD值。顯著性條件可以在一單一時頻部分被滿足。通過使用GCC-PHAT或互相關函數的演變來判定輸入音訊表示的通道之間的關係可有利地容許量化通道之間的關係以獲得特性。判定是否特性包括僅一單一顯著值或是否特性包括兩個或多個值可有利地容許判定哪一個編碼，例如參數多通道編碼或單獨編碼，更適合給定的輸入音訊表示。顯著性狀況可以有利地容許使用一或多個準則來評估這些值，例如，兩個局部峰或最大值之間的幅度，兩個局部峰或最大值之間的距離，例如在時域的時間落後(time lag)或在頻域，和/或距雜訊基底的距離，以判定包括在演變的哪一個值可以被考慮來判定此特性包括僅一單一顯著值還是兩個或多個顯著值。

在一個實施例中，多通道編碼器可以被配置成判定例如一編碼音訊表示的一先前幀的一參數，並且依據先前幀的參數進行切換。先前幀的參數可以是一SAD旗標。例如，可以有利地使用先前幀的參數判定來判定先前幀是否包括活動訊號，使得可以選擇性地避免在訊號部分的第一幀進行切換。

在一個實施例中，多通道編碼器可以被配置成判定是否在輸入音訊表示存有干擾源，並且依據該判定進行切換。干擾源可以包括兩個或多個干擾聲源，或兩個或多個干擾揚聲器，或兩個或多個干擾通話者。例如可以在一時頻部分或例如在一重疊的時頻資源或部分，判定在輸入音訊表示的兩個或多個干擾聲源(或揚聲器，或通話者)。判定是否存有干擾源可以有利地容許在參數多通道編碼或單獨編碼之間切換，例如根據輸入音訊表示包括干擾源而可能導致性能下降的判定，例如判定參數多通道編碼，但例如單獨編碼具有有利的性能。

在一個實施例中，多通道編碼器可以被配置成判定是否存有描述輸入音源表示的兩個或多個通道之間的關係的兩個或多個值，這兩個或多個值滿足一顯著性條件且與一單一時頻部分相關，並且依據此判定進行切換。這兩個或多個值可以包括相關值，或顯著值。判定是否存有兩個或多個值滿足一顯著性條件且與一單一時頻部分相關可以有利地容許判定，例如，輸入音訊表示可能導致性能下降，例如判定參數多通道編碼，但例如單獨編碼具有有利的性能。

在一個實施例中，多通道編碼器可以被配置成判定是否在一互相關中存有兩個或多個峰，例如GCC-PHAT，在輸入音訊表示的兩個或多個通道之間，並且依據此判定進行切換。互相關可與一給定的時頻部分相關。判定是否在兩個或多個通道的互相關中存有兩個或多個峰可以有利地容許在數量上判定是否在輸入音訊表示中有干擾通話者，這可能降低例如參數多通道編碼的性能，並且依據此判定進行切換到，例如單獨編碼。

在一個實施例中，多通道編碼器可以包含一估計器，估計器被配置成根據一互相關，估計輸入音源表示的兩個或多個通道之間的一關係。估計器可以被配置成估計單獨對多個時頻部分的關係。估計器可以是ITD估計器。互相關可以是GCC-PHAT，或平滑的互相關。互相關可以在時域執行或在頻域執行。多通道編碼器可以進一步被配置成判定兩個峰值(例如相關和/或顯著值，由估計器估計)間與不同的互相關落後相關的一差值，是否大於一值(例如預定的或訊號適應的)，並且依據此判定進行切換。估計器，例如一ITD估計器可以出現在編碼器，例如一使用參數多通道編碼的編碼器，因此使用估計器去判定是否與不同的互相關落後相關的兩個峰值之間的差值是否大於閾值不會帶來實質上的額外複雜性。

在一個實施例中，多通道編碼器被配置成判定描述輸入音源表示的兩個或多個通道的關係的兩個或多個值(例如相關值或顯著值)之間的一距離是否大於一值，該兩個或多個值滿足一顯著性條件且與一相同時頻部分有關，並且依據該判定進行切換。可以相對一時間落後或一互相關落後判定此距離，例如在一時域。兩個或多個值可以是輸入音訊表示的兩個或多個通道之間的互相關的峰值，並且可以由例如ITD估計器的估計器提供。峰值可以是滿足顯著性條件的值。判定滿足顯著性條件且與相同時頻部分有關的兩個或多個值之間的距離是否大於閾值容許有利地區分例如，兩個或多個峰位於可能歸因於一單一源的小距離處，及兩個或多個峰位於一可能歸因於多個源的顯著(例如較大)距離處。

在一個實施例中，多通道編碼器可以被配置成根據一互相關的一演變(例如在一落後參數上)判定一第一特性值，並且依據該判定進行切換。第一特性值可以是一主峰，也可以是一基本峰。互相關可以包括GCC-PHAT。第一特性值可以滿足顯著性條件。峰值可能是演變過程中的最大值(例如絕對值)。判定可以包括對一或多個幀的演變的評估，例如，其包括一個或多個先前幀。判定還可包括判定此值是否滿足穩定性條件。假使例如此值在多個先前幀(例如預定數量的先前幀，或訊號適應數量的先前幀)被滿足在一範圍(例如預定值或訊號適應的值)，則滿足穩定性條件。且，替代地或另外地，可根據具有作為輸入的多個幀(例如，預定數量的先前幀，或訊號適應數量的先前幀)的值的遲滯(hysteresis)來判定穩定性條件的實現。判定第一特性值，例如主峰，可以有利地容許評估所判定的值(在許多情況下是互相關演變中的最大值)是單獨的還是與另外一個或多個值結合的，導致在參數多通道編碼和單獨編碼之間切換編碼。此外，可選擇性地考慮顯著性條件和/或穩定性條件可有利地容許判定是否選擇性地避免切換，例如，如果檢測到的值在時間上不夠穩定和/或距離雜訊基底不夠遠。

在一個實施例中，多通道編碼器可以被配置成根據互相關的演變判定一或多個從屬特性值，並且依據此判定進行切換。一或多個從屬特性值可能是二級峰，或第二峰。從屬值可以根據互相關的演變的一部分判定。例如，此部分的每一單元可以有一距離(例如，相對於一時間落後，例如在一時域)相對第一特性值，此距離超過(例如，預定或訊號適應的)一閾值。一或多個從屬特性值可以是在演變部分的一或多個最大(例如，絕對)值。判定一或多個從屬特性值可有利地容許評估是否判定的值(例如，第一特性值和/或一或多個從屬特性值)導致在參數多通道編碼和單獨編碼之間切換。進一步，可選擇對互相關的演變的部分中的一或多個從屬特性值，其具有相距於第一特性值的某一距離進行評估，如此可有利地容許可靠地將輸入音訊表示歸因到單一源或複數個源。替代地或另外地，多通道編碼器可以被配置成根據互相關的演變判定是否存有一或多個從屬特性值，並且依據此判定進行切換。換句話說，可以僅例如根據例如模式識別演算法等來判定一或多個從屬特性值的存在。

在一個實施例中，多通道編碼器可以被配置成判定滿足一顯著性條件的主峰和一或多個從屬峰，並且依據此判定進行切換。例如，如果對滿足穩定性條件的多個幀，主峰和一或多個從屬峰之間的一差值(例如，一相對的差值)大於一閾值(例如，一預定閾值或一訊號適應的閾值)，則滿足顯著性條件。可以例如就幅度、相位、或時間落後判定峰之間的差值。替代地或另外地，多通道編碼器可以被配置成判定是否存有滿足一關聯性準則的互相關的一或多個從屬峰，並且依據此判定進行切換。關聯性準則可以例如被關於主峰和/或關於互相關的雜訊基底定義。判定主峰和一或多個從屬峰之間的一顯著性差值條件有利地容許可靠地判定在輸入音訊表示存在多於一個源，並且例如依據此判定進行切換到單獨編碼。

在一個實施例中，多通道編碼器可以被配置成如果在一給定幀之前的一或多個幀中存有一或多個對應的從屬峰，則可選地考慮輸入音訊表示的給定幀中的一從屬峰。例如，一或多個對應的從屬峰可以位在跟考慮的從屬峰有相同的自動相關處(auto-correlation)。在一或多個先前幀中的一或多個對應的從屬峰觀點下可選擇考慮在一給定幀的一從屬峰，可有利地容許判定是否某空間和/或階(level)/相位/頻率穩定性可以被歸因到切換編碼之前的源。穩定性可以包含一個或多個幀，因此可能與源的情況有關，而不是受幀的長度限制。

在一個實施例中，多通道編碼器可以被配置成判定描述輸入音訊表示的兩個或多個通道之間的一關係的一或多個特性值是否滿足一穩定性條件，並且依據此判定進行切換。特性值可以是主峰和/或一或多個對應的從屬峰。例如，如果對多個先前幀(例如預定數量的先前幀，或訊號適應數量的先前幀)值在一範圍(例如一預定範圍或一訊號適應的範圍)內或大於一閾值(例如一預定閾值或一訊號適應的閾值)，則滿足穩定性條件。替代地或另外地，可根據具有作為輸入的多個幀(例如，預定數量的先前幀，或訊號適應數量的先前幀)的值的遲滯來判定穩定性條件的實現。判定穩定性條件的實現可有利地容許避免在雜訊的輸入音訊表示或輸入音訊表示的部分，例如雜訊的幀進行切換。

在一個實施例中，多通道編碼器可以被配置成判定對於多個幀(例如預定數量的先前幀，或訊號適應數量的先前幀)是否滿足一雜訊條件，並且在滿足此雜訊條件時選擇性地避免切換。幀可以包括現在幀。例如，如果一幀(或多個幀)的雜訊特性(例如雜訊基底)大於一閾值(例如一預定閾值或一訊號適應的閾值)，則滿足穩定性條件。判定雜訊條件的實現可有利地容許避免在雜訊的輸入音訊表示或輸入音訊表示的部分，例如雜訊的幀，進行切換。

在一個實施例中，多通道編碼器可以被配置成判定是否顯著性條件和/或穩定性條件對於多個幀滿足特性值，並且依據此判定進行切換。並且在滿足此雜訊條件時選擇性地避免切換。特性值可以是主峰和/或一或多個對應的從屬峰。多個幀可以是預定的或訊號適應的。判定顯著性條件和/或穩定性條件對於多個幀的實現可有利地容許選擇性地避免切換避免在不穩定的訊號，例如輸入音訊表示的不穩定和/或雜訊的部分，進行切換。

在一個實施例中，多通道編碼器可以被配置成判定一或多個從屬峰的一距離是否在預定的範圍，並且依據此判定選擇性地避免切換。例如，一或多個從屬峰可能有最大值(例如最大絕對值)且被稱為峰(2)。可以相對於一時間落後(例如，一絕對時間落後或一相對時間落後)判定一距離或在一時域或一頻域判定一距離。可以對多個幀(例如預定數量的先前幀，或訊號適應數量的先前幀)判定此距離。這些幀可包括一或多個先前幀和/或現在幀。判定一或多個從屬峰的距離是否在預定的範圍內，並且依此進行切換可有利地容許選擇性地避免切換避免在不穩定的訊號，例如輸入音訊表示的不穩定和/或雜訊的部分，進行切換。

在一個實施例中，多通道編碼器可以被配置成選擇性地避免在輸入音訊表示的一非活動幀的一第一幀時或之後切換。非活動幀可包括一雜訊幀。替代地或另外地，多通道編碼器可以被配置成判定一幀中的一給定的旗標是否相對一或多個先前幀改變，並且依據該判定選擇性地避免切換。旗標可例如指示一活動幀訊號且可以是一SAD旗標。選擇性地避免切換可以包括避免在旗標取活動值的第一幀或之後切換。因此，可以有利地選擇性避免在訊號部分的第一幀進行切換。

在一個實施例中，多通道編碼器可以被配置成響應於檢測到大於一閾值(例如一預定閾值，或一訊號適應閾值)的輸入音訊表示的一特性的一變化時，選擇性地切換到單獨編碼。輸入音訊表示的特性可以是例如一ITD，或一主峰，或一峰(1)。響應於檢測到大於一閾值的輸入音訊表示的一特性的一變化時選擇性地切換到單獨編碼可以有利地容許對突然的變化採取行動，而無需評估其他特性/參數。

在一個實施例中，多通道編碼器可以被配置成判定描述一聲源的一方向的一參數(例如相對於一先前/上一峰)是否改變了至少一個值(例如一閾值)，並且依據此判定進行切換。參數可以是主峰在時頻部分中互相關(例如在GCC-PHAT)的位置。此切換可包括切換到單獨編碼。判定描述一聲源的一方向的一參數是否改變了至少一個閾值)可以有利地容許切換到某種編碼，例如，單獨編碼，假使此聲源例如相對於麥克風或一突如其來的附加音源快速地移動，並與一存在的聲源在一時頻部分干擾。

進一步，提供一多通道音訊解碼器。多通道音訊解碼器可以是立體聲或雙通道或多於雙通道的音訊解碼器。音訊編碼器可以是一般音訊編碼器，或語音編碼器，或使用具有比例因數的變換域解碼和根據線性預測係數的解碼的解碼器。解碼器被配置成用於根據一編碼輸入音訊表示提供一解碼音訊表示。解碼器被配置成在多個通道(例如輸入音訊表示的通道)的一參數多通道解碼，和多個通道(例如輸入音訊表示的通道)的一單獨解碼之間切換。

關於參數多通道編碼，一組合多個通道的組合訊號可被編碼，而且兩個或多個通道之間以參數型式表示的一關係也可被編碼。參數可以包括通道間時差參數，和/或通道間階差參數，和/或通道間相位參數和/或通道間互相關參數。

在參數多通道解碼和單獨解碼之間切換可以有利地容許將解碼(以及編碼也)適應於輸入音訊表示的特性。在參數多通道解碼和單獨解碼之間選擇性切換可容許選擇更適合對底層輸入音訊表示編碼的編碼，使得所得到的編碼音訊表示可在例如感知性能方面具有有利的性質。

換言之，本發明涉及例如在性能準則方面，在獲得輸入音訊表示的特性與依據此特性進行隨後的動作(例如切換)的努力，以及使用可以對某種輸入音訊表示(或其一部分)有利的編碼對輸入音訊表示進行編碼(因此也可供解碼)的益處兩者之間作權衡。

在一個實施例中，多通道解碼器可以被配置成依據包括在該編碼音訊表示的一信令在多個通道的一參數多通道解碼和多個通道的一單獨解碼之間切換。包括在該編碼音訊表示的一信令可以相較於根據例如所獲得的編碼音訊表示的上下文推斷底層編碼方案的解碼器，簡化此解碼器。

此外，提供一編碼的多通道音訊表示。多通道音訊表示可以是立體聲，或雙通道，或多於雙通道的音訊表示。編碼多通道音訊表示包括(例如一輸入音訊表示的)多個通道的編碼參數多通道表示和(例如此輸入音訊表示的)多個通道的編碼單獨表示。

參數多通道編碼可以編碼一組合多個通道的組合訊號，及編碼兩個或多個通道之間以參數型式表示的一關係。參數可以包括通道間時差參數，和/或通道間階差參數，和/或通道間相位參數和/或通道間互相關參數。

換言之，本發明的多通道音訊表示有利地容許選擇性地使用更適合對底層輸入音訊表示編碼的編碼，使得所得到的編碼音訊表示可在例如感知性能或其他準則方面，具有有利的性質。

在一個實施例中，編碼多通道音訊表示可以進一步包括信令(例如對一解碼器)指示在參數多通道解碼和單獨解碼之間切換。信令可以指示例如當解碼編碼多通道音訊表示時進行切換。

另外，提供一多通道音訊編碼方法。多通道音訊編碼可以包括立體聲，或雙通道，或多於雙通道的音訊編碼。可以由一般音訊編碼器，或語音編碼器，或在使用具有比例因數的變換域編碼及根據線性預測係數的編碼之間切換的編碼器執行音訊編碼。此編碼根據一輸入音訊表示提供一編碼的音訊表示。方法包括依據輸入音訊表示的特性，在多個通道(例如輸入音訊表示的通道)的一參數多通道表示和多個通道(例如輸入音訊表示的通道)的一單獨編碼之間切換。

對於參數多通道解碼，可以對組合多個通道訊號的組合訊號進行編碼，並且可以對以參數形式存在的兩個或多個通道之間的關係進行編碼。這些參數可以包括通道間時差參數、和/或通道間階差參數、和/或通道間相位參數和/或通道間相關參數。

在參數多通道解碼和單獨解碼之間的切換有利地容許使編碼適應輸入音訊表示的特性。在參數多通道解碼和單獨解碼之間的選擇性切換可以容許選擇更適合於對底層輸入音訊表示進行編碼的編碼，使得所得到的編碼的音訊表示可以在例如感知性能或其他性能準則方面具有有利的性質。

此外，還提供了一種多通道音訊解碼方法。多通道音訊解碼可以包括立體聲、雙通道，或多於雙通道的音訊解碼。可以由一般音訊解碼器、語音解碼器，或在使用具有比例因數的變換域解碼及根據線性預測係數的解碼之間切換的解碼器執行音訊解碼。解碼根據一編碼的輸入音訊表示提供一解碼的音訊表示。方法包括在多個通道(例如輸入音訊表示的通道)的一參數多通道解碼和多個通道(例如輸入音訊表示的通道)的一單獨解碼之間切換。

在參數多通道解碼和單獨解碼之間的切換有利地容許使解碼(因此也包括編碼)適應輸入音訊表示的特性。在參數多通道解碼和單獨解碼之間的選擇性切換可以容許選擇更適合於對底層輸入音訊表示進行編碼的編碼，使得所得到的編碼的音訊表示可以在例如感知性能方面具有有利的性質。

本方法可選擇由本文公開的任何特徵、功能和細節來補充，這些特徵、功能和細節也涉及裝置。本方法可選擇由這些特徵、功能和細節單獨地或組合地進行補充。

此外，當電腦程式在電腦上運行時，提供用於執行上述方法之一的電腦程式。

以下參考附圖來討論本發明的實施例。

100:多通道音訊編碼器

110:輸入音訊表示

112:音訊表示

120:參數多通道編碼

130:多個通道的單獨編碼

140:開關元件

145:控制訊號

150:切換控制

200多通道音訊解碼器

210:編碼音訊表示

212:音訊表示

240:開關元件

300:方法

320:步驟

400:方法

410,420:步驟

500:多通道音訊編碼器

510a,510b:音訊表示訊號

520a,520b:功能塊

522a,522b:訊號

530:塊

532:檢測訊號

540:控制器

550:參數立體聲編碼器

560:編碼塊

562:音訊表示

610,615,620,625,710,720:峰

730:雜訊基底

800:音訊編碼器

810a,810b:通道

812:編碼音訊表示

820,824:頻域分析

822,826:頻域表示

830:參數多通道編碼

832:參數多通道表示，編碼表示

834:單獨編碼

836:編碼資訊

840:解相關資訊判定器

842:互相關資訊

850:主峰判定器

852:主峰資訊，峰值檢查器

854:主峰檢查器

856,866,872:資訊

860:第二峰判定器

862:資訊

864:第二峰顯著性評估器

870:檢測器

880:切換決定

隨後將用附圖描述根據本發明的實施例，其中圖1示出依照本發明一實施例的音訊編碼器的方塊示意圖；圖2示出依照本發明一實施例的音訊解碼器的方塊示意圖；圖3示出依照本發明一實施例的用於提供編碼音訊表示的方法的流程圖；圖4示出依照本發明一實施例的用於提供解碼音訊表示的方法的流程圖；圖5示出依照本發明一實施例的音訊編碼器的方塊示意圖；圖6示出音訊訊號和相關峰值的表示；圖7示出了相關函數的表示；並且圖8示出依照本發明一實施例的音訊編碼器的方塊示意圖。

1.依照圖1的音訊編碼器

圖1示意性地示出多通道音訊編碼器100。輸入音訊表示110被提供給多通道音訊編碼器100作為輸入。例如，輸入音訊表示110可以包括多個通道。多通道音訊編碼器100提供編碼的音訊表示112作為輸出。

多通道音訊編碼器100包括用於執行參數多通道編碼120的功能塊和用於執行多個通道的單獨編碼130的功能塊。輸入音訊表示110被提供給功能塊120和130中的每一個。開關元件140選擇性地切換功能塊120和130中的每一個的輸出，使得編碼的音訊表示112由多通道音訊編碼器100提供。

多通道音訊編碼器100依據輸入音訊表示110的特性，通過使用開關控制訊號145來控制開關元件140。控制訊號145可以由可選的功能塊提供，用於執行包含在多通道音訊編碼器100或任何其他適當手段的切換控制150。

替代地或另外地，還可以將切換控制訊號145提供給功能塊120和130中的任何一個，使得塊120和130可以被選擇性地禁用(例如，關閉)。例如，如果切換控制訊號145指示將用於對輸入音訊表示110進行編碼的用於執行多個通道130的單獨編碼的功能塊，則可以基於切換控制訊號145禁用用於執行參數多通道編碼120的功能塊。

替代地，如果切換控制訊號145指示要用用於執行參數多通道編碼120的功能塊對輸入音訊表示110進行編碼，則可以根據切換控制訊號145來禁用用於執行多個通道130的單獨編碼的功能塊。

音訊編碼器100可選擇由本文公開的任何特徵、功能特性和細節來補充，這些特徵、功能特性和細節可單獨地或組合地採用。

2.依照圖2的音訊編碼器

圖2示意性地示出了多通道音訊解碼器200。多通道音訊解碼器200具有作為輸入的編碼音訊表示210。多通道音訊解碼器200提供解碼的音訊表示212。例如，解碼音訊表示212可以包括多個通道。

多通道解碼器200包括用於執行參數多通道解碼220的功能塊和用於執行多個通道230的單獨解碼的功能塊。編碼音訊表示210被提供給功能塊220和230中的每一個。開關元件240選擇性地切換功能塊220和230中的每一個輸出，使得解碼的音訊表示212由多通道音訊解碼器200提供。

開關元件240是控制器，例如，通過包含在編碼音訊表示210中的隱式或顯式信令(未示出)。

音訊解碼器200可選擇由本文公開的任何特徵、功能和細節單獨地或組合地進行補充。

3.依照圖3提供一編碼音訊表示的方法

圖3示意性地示出多通道音訊編碼的方法300。方法300包括依據輸入音訊表示的特性在多個通道的參數多通道編碼和多個通道的單獨編碼之間切換的步驟310。另外，方法300包括步驟320，其中提供編碼音訊表示。

注意，方法300可選擇執行進一步的適當活動，其揭示與任何裝置(例如，依照本發明的多通道解碼器)結合。

4.依照圖4提供一編碼音訊表示的方法

圖4示意性地示出了多通道音訊解碼的方法400。方法400包括在多個通道的參數多通道解碼和多個通道的單獨解碼之間切換的步驟410。此外，方法400包括提供解碼音訊表示的步驟420。

注意，方法400可選擇執行進一步的適當活動，其揭示與任何裝置(例如，依照本發明的多通道解碼器)結合。

5.依照圖5的音訊編碼器

圖5示意性地示出了多通道音訊編碼器500的實施例。多聲道音訊編碼器500具有兩個輸入音訊表示訊號，即對應於左聲道且由L指定的音訊表示訊號510a和對應於右聲道且由R指定的音訊表示訊號510b。

輸入音訊表示訊號510a和510b各自分別在功能塊520a和520b中進行可選的頻域分析。功能塊520a和520b中各自獲得時域中的訊號，即訊號隨時間的演變，並且提供關於訊號在給定頻帶中的幅度和/或相位在一個頻率範圍內的資訊。功能塊520a和520b分別提供輸出訊號522a和522b。替代地，功能塊520a和520b可能不存在，訊號522a可等同於訊號510a，訊號522b可等同於訊號510b。

訊號522a和522b被提供給功能塊530。塊530對訊號522a和522b執行互相關操作，並提供指示在輸入音訊表示訊號510a和510b中是否檢測到干擾通話者的檢測訊號532。更具體地說，塊530執行廣義互相關相位變換，也稱為GCC-PHAT，在訊號522a和522b上。GCC-PHAT使用使訊號頻譜密度標準化的加權函數來執行互相關操作，以獲得相對於(例如)雜訊基底可有利地分辨的峰值。GCC-PHAT提供一個值，該值指示其輸入訊號的相似性度量，該輸入訊號具有這兩個訊號之間的時間落後作為參數。結果，通過分析GCC-PHAT操作的結果中的峰值，塊530判定通道間時差，也被稱為耳間時差或ITD，並得出音訊表示訊號510a和510b中是否存在干擾通話者。為了判定干擾通話者是否存在於訊號510a和510b中，塊530可選擇使用被討論到與本發明的其他實施例結合的顯著性條件，穩定性條件和/或雜訊條件。訊號532還可以包括ITD的估計。

訊號532被提供給控制器540。控制器540還獲取訊號522a和522b作為輸入。控制器選擇性地將訊號522a、522b和ITD的估計提供給參數立體聲編碼器550(即，用於參數多通道編碼的功能塊)或L-R編碼塊560(即，用於對單獨通道進行編碼的功能塊)，依據由塊530提供的檢測訊號。更具體地，控制器540響應於獲得訊號510a和510b中不存在干擾通話者的指示而將ITD估計和訊號522a和522b提供給參數立體聲編碼器550。作為響應，編碼器550依照參數多通道編碼提供一經編碼的音訊表示552作為多通道音訊編碼器500的輸出。或者，響應於獲得訊號510a和510b中存在干擾通話者的指示，控制器540將訊號522a和522b 提供給L-R編碼塊560。作為響應，編碼塊560依照此單獨編碼(例如，左-右、L-R編碼)提供一經編碼的音訊表示562。

參數立體聲編碼器550可以實現如[1]或[2]所述的編碼。可以理解，編碼器550可以使用例如在MPEG-4標準第3部分或HE-AAC v2中定義參數立體聲編碼的適當標準(或多個規則集)。編碼塊560可以實現如[4]所述的編碼器。可以理解，編碼塊560可以使用定義多個通道的一單獨編碼的適當標準(或一組規則)。編碼塊560還可以實現聯合立體編碼、M/S立體編碼等。

圖6視覺化了GCC-PHAT函數單元的示例性操作，例如，如結合上面的圖5討論的塊530中所包含的。更具體地，圖6是GCC-PHAT的值的二維表示及其在判定一個或多個峰值和基於其檢測干擾通話者方面的分析。圖6所示的表示的橫坐標涉及以幀為單位表示的時間的推進。為了以下說明的目的，通過識別示例性時間點(例如t1、t2等)來定義不同的時間範圍，所述示例性時間點是各個範圍的端點。圖5所示的表示的座標與GCC-PHAT的參數有關，即，與提供給執行GCC-PHAT的函數單元的兩個訊號之間的時間落後(例如，表示為ITD)有關。圖6中的二維平面上的顏色對應於給定幀和給定時間落後的GCC-PHAT的值。

在示範時間範圍內(即，幀範圍)在t1和t2之間，示出由GCC-PHAT函數單元判定的多個主峰(每個主峰用十字表示，在圖6的圖例中被指定為「峰1」)。GCC-PHAT函數單元可根據預先發送的發明的一個或多個實施例來判定主峰。在t1到t2的範圍內，還示出了由GCC-PHAT函數單元判定的多個從屬峰值(每一個用圓圈表示，在圖6的圖例中被指定為「峰2」)。GCC-PHAT函數單元可根據本發明的一個或多個實施例來判定從屬峰值)。

在t1到t2的範圍內，GCC-PHAT函數可確定其中包含的多個主峰610滿足穩定性條件，例如，考慮到峰610的位置(就時間落後而言)彼此之間(在連續幀的範圍內)相差最多一定閾值。此外，GCC-PHAT函數可以判定包括在範圍t1到t2中的多個從屬峰615滿足(與主峰610相同或不同參數化的)穩定性條件，例如，儘管峰620的位置顯示在與t2相鄰的範圍t1到t2的部分中的至少一個連續幀範圍內的一些散射。結果，GCC-PHAT功能(或者，例如，包括在框530中的不同函數單元)可以考慮對於峰610和615滿足的穩定性條件來判定干擾通話者存在。

在另一示例性範圍t3到t4中，主峰620表現出與範圍t1到t2中相似的圖案。因此，穩定性條件的實現可由GCC-PHAT功能決定。對於多個從屬峰值625，GCC-PHAT功能可判定鑒於散射圖案，至少一些峰625不滿足穩定性條件(即，就連續幀的至少一些子範圍的時間落後而言，顯著不同的位置)。結果，可以僅從滿足所評估的兩個穩定性條件中的一個的角度來判定干擾通話者不存在。

對於示例性範圍t5到t6以及t6到t7，考慮到主峰的穩定性和次峰的散射，測定可對應於範圍t3到t4中的測定。對於示例性範圍t8到t9，考慮到主峰和副峰的穩定性，測定可與針對範圍t1到t2所作的測定相對應。

圖7示出了例如圖6所示的幀之一的示例性單一幀的GCC-PHAT的演變。在圖7中，橫坐標與時間落後參數有關，並且對應於圖6的縱坐標。圖7的縱座標與互相關的值相關，例如，與GCC-PHAT函數提供的值相關。對於圖7中的演變，由GCC-PHAT函數判定主峰(表示為峰1、710)和附屬峰(表示為峰2、720)。根據本發明的一個或多個實施例，考慮到主峰710和次主峰720各自的振幅(即，互相關值)與雜訊基底730的互相關值的距離大於閾值(例如，根據本發明的一個或多個實施例定義)。

此外，考慮到在時間落後方面具有距離，可以確定峰710和720(例如，通過GCC-PHAT函數或圖5的塊530)以滿足根據本發明的一個或多個實施例的顯著性條件，即沿著橫坐標，大於閾值(例如，根據本發明的一個或多個實施例定義)。

此外，可以(例如，通過GCC-PHAT功能或圖5的塊530)判定峰710和720滿足根據本發明的一個或多個實施例的不同說明性顯著性條件，因為每個實施例的互相關值大於閾值(例如，如根據本發明的一個或多個實施例所定義，具體地說，例如，大於0.15的值，定義見下文選項1中的峰值(1))。

此外，可以(例如，通過GCC-PHAT功能或圖5的塊530)判定峰710和720滿足根據本發明的一個或多個實施例的不同說明性顯著性條件，考慮到具有低於閾值的比率的峰710和720的互相關值的關係(例如，如根據本發明的一個或多個實施例所定義，並通過使用具有常數c=0.8的示例來解釋)。

注意，本發明不限於使用GCC-PHAT，而是可以使用能夠提供互相關值指示的任何技術，即任何合適的互相關技術，但是也可以使用合適的模式識別技術，例如，涉及神經網路。

以下，描述本發明的進一步實施例。以下描述的實施例可以構成替代方案，或者在上述公開的方面之外加以考慮。以下描述的實施例涉及檢測用立體聲麥克風設定捕獲的干擾通話者。以下描述的實施例是例如可用於通訊應用的立體聲語音轉碼器的有用工具。

參照上述描述，對於某些特定情况，為了更好的效能，可以優選兩個立體聲通道的離散編碼。對於干擾通話者的情况，有利的實施例可以在參數模型(模式A)和離散模型(模式B)之間切換。另一方面涉及能夠自動檢測何時從模式A切換到模式B以及何時從模式B切換到模式A。以下考慮通常適用於第一種情况，即何時從模式A切換到模式B。

示例性解決方案考慮了當兩個通話者具有不同的ITD(耳間時差)並且兩個ITD之間的差異較大(顯著)時的重要情况(例如，僅最關鍵的情况)。

在一些實施例中，可以假定轉碼器已經具有ITD估計器，並且該ITD估計器基於例如在[3]中描述的GCC-PHAT(廣義互相關相位變換)。這種估計器的基本原理是檢測GCC-PHAT中的一個峰值，該峰值對應於立體聲訊號的ITD。然而，當兩個通話者同時講話並且他們有兩個不同的ITD時，在大多數情况下GCC-PHAT有兩個峰值。一些實施例檢測GCC-PHAT中是否只有一個峰值(模式A)或兩個彼此遠離的峰值(模式B)。

在一個實施例中，起始點可以是模式A。可以計算立體聲訊號的GCC-PHAT，可能使用平滑版本的交叉頻譜或任何其他處理。可以估計GCC-PHAT的主峰。在大多數情况下，這可能對應於GCC-PHAT絕對值的最大值。替代地或另外地，一些遲滯機制可以應用於具有更穩定的ITD估計。可以選擇離主峰足夠遠的GCC-PHAT的一部分。主峰與該部分的邊界之間的距離可以高於某一閾值。可在所選部分中找到第二峰：例如，這可以是GCC-PHAT絕對值的最大值。如果第二峰的值高於某一閾值，例如，如果峰(2)>c*峰(1)，其中峰(1)和峰(2)分別是第一和第二峰的值，並且c可以是常數(例如，c=0.8)或訊號適應變數，則GCC-PHAT可以被認為包含兩個顯著的峰並切換到模式B可能發生。否則，沒有明顯的第二個峰，模式A仍繼續使用中。

此外，實施例/選項公開如下：

在選項1中，可以執行峰(1)高於特定閾值(例如0.15)的檢查，以避免切換到雜訊幀。

在選項2中，可能需要在兩個連續幀上驗證上述兩個實施例的兩個條件。這樣可以避免打開不穩定的訊號。

在選項3中，可能需要兩個連續幀的峰(2)彼此接近(例如，它們的差異可能小於4)。這樣可以避免打開不穩定的訊號。

在選項4中，前一幀的SAD旗標必須是1(意味著它是一個活動訊號)。這樣可以避免在訊號部分的第一幀處切換。

在選項5中，峰(1)可能在一幀到下一幀之間突然變化，相差很大。在這種情況下，可能不需要檢查第二個峰值，並且可以認為第二個揚聲器開始講話並且可能切換到模式B。

在一些實施例中，在GCC-PHAT檢測器確定是否存在如上述一個或多個實施例中所述的干擾通話器之後：如果沒有檢測到干擾通話器，則系統保持其內定參數模式，並且估計的ITD值可以被轉發到如所述的參數處理部，例如，在[1]中。如果存在干擾通話器，則檢測到系統可以切換到L-R編碼方案，例如，使用EVS轉碼器分別對每個通道編碼[4]。

所描述的實施例實現了在某些情況下檢測立體聲語音訊號的干擾語音段，在這種情況下，可以優選地從參數立體聲編碼系統切換到離散立體聲編碼系統。這樣，可以提高轉碼器的感知品質。對於參數編碼方案，在一些轉碼器中可以存在通道間時差(ITD)檢測器。因此，可以接受額外的複雜度開銷或額外的延遲。

以下方面被進一步公開，並且可以單獨地或可選地與本文公開的任何特徵、功能和細節結合使用：

方面1：立體聲語音編碼系統，一旦分類器/訊號分析器判定滿足條件，轉碼器可以從參數編碼模式(模式A)切換到離散L-R編碼模式(模式B)。

方面2：立體聲語音編碼系統，一旦分類器/訊號分析器檢測到訊號破壞了參數編碼方案的底層模型，則轉碼器可以從參數編碼模式(模式A)切換到離散L-R編碼模式(模式B)。

方面3：立體聲語音編碼系統，一旦系統檢測到干擾通話者，轉碼器就從參數編碼模式(模式A)切換到離散L-R編碼模式(模式B)。

方面4：對於立體聲語音編碼，使用PHAT廣義互相關去檢測第一最大絕對值(峰)和第二最大絕對值，並根據應用第二最大絕對值來檢測干擾語音段的條件。

上面討論的圖6是上述說明的步驟/方面/實施例的視覺化，其中繪製了訊號的散點圖，並且在圖7中示出了單幀表示的縮放。

6.依照圖8的音訊編碼器

圖8示出依照本發明一實施例的音訊編碼器800的方塊示意圖。

音訊編碼器800接收輸入音訊表示810，該表示810可以包括多個通道(例如通道L、R)。音訊編碼器800提供經編碼的音訊表示812，其例如可以表示輸入音訊表示的音訊內容。

音訊編碼器800可選擇包括第一頻域分析820，該第一頻域分析820接收例如輸入音訊表示的第一通道810a，並據此提供第一通道810a的頻域表示822。音訊編碼器800可選擇包括第二頻域分析824，其例如接收輸入音訊表示的第二通道810b，並據此提供第二通道810b的頻域表示826。例如，第一和第二頻域分析可提供輸入音訊表示的通道的頻域表示或頻譜表示822、826，例如使用短期傅立葉變換、MDCT變換、濾波器組，或者其他類似方式。

音訊解碼器800還包括多個通道的參數多通道編碼830和單獨編碼834。例如，多通道編碼830可以接收由頻域分析820、824提供的輸入音訊表示的通道810a、810b，或者另外地接收頻域表示822、826。另外，然而，多通道編碼可接收輸入音訊表示的通道的不同表示。參數多通道編碼提供輸入到參數多通道表示832的兩個或多個通道的編碼表示，其中，輸入訊號表示的通道可以例如被表示成使用一組合訊號(例如一下混訊號)表示，例如，訊號分量在輸入訊號表示的所有通道(或至少在一些通道中，例如兩個或多個通道)中相似，並且使用參數側資訊，該參數側資訊例如以參數值的形式描述輸入音訊表示的兩個或多個通道之間的相似性和/或差異。例如，參數側資訊可以包括通道間階差值(level difference values)和/或通道間相位差值和/或通道間時差值和/或通道間相關值和/或描述輸入音訊表示的通道之間的關係的任何其他參數。參數側資訊優選地可用於音訊解碼器側，以至少基於組合訊號近似地重構輸入音訊表示的通道。例如，參數側資訊的參數值可以針對不同的時頻範圍或不同的頻譜倉(spectral bin)分別提供。例如，參數多通道編碼可以思及「參數立體聲」概念，也就是說例如，該概念用作MPEG4高效高級音訊編碼(HE-AAC)的擴展，並且可以提供輸入音訊表示的通道的相應表示。

音訊編碼器800還包括多個通道的單獨編碼834，其中，例如，輸入音訊表示的不同通道被單獨編碼，例如，使用頻譜值的單獨編碼。因此，單獨編碼834提供與輸入音訊表示的不同通道有關的分別的編碼資訊836，其例如容許在音訊解碼器側對輸入音訊表示的通道進行分別解碼。

此外，音訊編碼器被配置成在參數多通道編碼830和單獨編碼834之間切換，使得可以通過音訊編碼器的控制塊來選擇，參數多通道表示832或分別的編碼資訊是否包括在編碼音訊表示812中。關於此點，對於給定的幀，是否執行都參數多通道編碼830和單獨編碼834並無相關，而且决定是否將參數多通道編碼提供的編碼表示832或單獨編碼提供的編碼表示836的決定實際包括在編碼音訊表示812，或者對於給定的幀是否僅選擇參數多通道編碼或單獨編碼(其中後一種解決方案通常更有效，但可能引入額外的延遲)。

在下面，將描述如何使用選擇，是否參數多通道編碼830還是單獨編碼834(或者，等效地，參數多通道表示832或與輸入音訊表示的不同通道有關的單獨編碼資訊836)應包括在編碼音訊表示812中。

為此，音訊編碼器800包括解相關資訊判定器840，其例如可以根據輸入音訊表示的通道的頻域表示822、826來判定輸入音訊表示的兩個或多個通道之間的相關性(例如，互相關)。然而，應當注意，例如，相關資訊判定器840可以根據輸入音訊再現的通道的時域表示來操作。此外，應當注意，相關資訊判定可以為輸入音訊表示的不同頻率範圍或時頻部分提供分別的相關資訊842。因此，不僅可以存在用於輸入音訊表示的後續幀的分別的相關資訊842，而且甚至可以存在用於單獨頻率範圍或頻倉的單獨相關資訊842。另外，應當注意，相關資訊842可以採用相關函數的表示形式(例如，每個時頻部分)，其包括不同相關落後值(correlation lag values)的不同相關值(也被指定為落後或時間落後)。

例如，可以使用所謂的“GCC-PHAT”技術來獲得相關資訊，其已經被發現該科技帶來了特別有意義的結果。然而，也可以使用不同的概念來判定(互)相關資訊。

音訊解碼器800還包括主峰判定器850，其可被配置成基於互相關資訊來確定輸入音訊表示的兩個或多個通道之間的互相關的主峰(例如GCC_PHAT的絕對值的最大值)，並且提供描述主峰的資訊852(例如，包括峰值通道間時差或峰值或峰值強度)。例如，主峰判定器850可以判定互相關資訊(或由互相關資訊表示的互相關函數)包括(全域)最大值，對於哪個相關落後(或等效地，對於哪個時間落後，或等效地，對於哪個通道間時間差)。任選地，主峰值測定器還可以確定峰值(或峰值強度)本身。然而，應注意的是，主峰測定器不必將互相關函數的最大值識別為主峰。相反，主峰測定器可以，例如，不考慮葉「偶發」或「不穩定」峰，並且識別穩定峰(例如，在多個幀上穩定並且可以被分類為「顯著」的峰，例如，大於閾值或超過雜訊基底至少一預定值)作為主峰(其中，例如，遲滯機制可用於具有更穩定的ITD估計)。應當注意，本領域技術人員皆知，有許多不同演算法可以被用於辨識相關函數的一峰或主峰。

可選地，音訊解碼器還包括峰值檢查器852，其接收主峰資訊852並檢查主峰資訊的可靠性。例如，峰值檢查器可以識別不可靠的主峰資訊，主峰資訊包括隨時間變化的較大波動(例如峰值ITD和/或峰值強度的波動)和/或指示過小峰值強度的波動。例如，可以檢查主峰的值是否高於某個閾值，以避免切換到雜訊幀。可選地，還可以確定主峰是否滿足多個幀上的一個或多個條件(例如，關於一峰值)。總之，這種不可靠的主峰資訊可以被抑制和/或替換為默認資訊和/或訊號。

此外，音訊解碼器可包括第二峰判定器860，其可被配置成根據互相關資訊842判定輸入音訊表示的兩個或多個通道之間的互相關的第二峰，並提供描述第二峰的資訊862(例如，包括一峰通道間時差或一峰值或一峰強度)。例如，第二峰可以是由互相關資訊842描述的互相關函數的局部最大值，其包括主峰的峰值之後的第二最大峰值。另外，可選地要求將互相關資訊的局部最大值識別為第二峰，該局部最大值滿足一個或多個關於主峰和/或關於互相關函數的雜訊基底的預定條件。例如，第二峰判定器可以從主峰判定器850接收關於主峰的資訊，並且在識別第二峰時考慮該資訊。例如，第二峰值判定器860可以檢查第二峰候選者的距離(例如，互相關函數的局部最大值)是否包括從主峰的預定距離條件(例如，以相關落後或ITD表示)，其中，例如，可能要求第二峰包括相距主峰的預定最小距離。或者，可以根據「遠離主峰」的GCC-PHAT的(選定的)部分來執行第二峰的判定，例如，根據ITD與主峰間隔預定的距離，其中，例如，在GCC-PHAT所選部分中的GCC-PHAT的絕對值的(絕對)最大值可被識別為第二個峰值。

替代地或另外地，第二峰判定器可以檢查第二峰候選者是否滿足預定峰值條件(例如，根據主峰和第二峰的峰值之間的關係)。例如，可以要求第二峰的值高於某一閾值，該閾值可以被定義成相對於主峰的值。

而且，第二峰值判定可以檢查第二峰值候選者的峰值是否充分高於互相關資訊的雜訊基底。

因此，第二峰值確定860可判定是否存有滿足被識別為第二峰的要求的第二峰，並提供描述第二峰的第二峰資訊862(例如，根據相關落後和/或ITD和/或峰值和/或峰值強度)。可選地，第二峰資訊可指示不存有滿足條件的第二峰。

可選地，音訊解碼器還可以包括第二峰顯著性評估器864，其可以例如接收第二峰資訊862並判定由第二峰資訊862描述的第二峰是否顯著和/或可靠。例如，第二峰顯著性評估可以檢查第二峰在多個幀上是否滿足一個或多個條件。例如，對於多個幀，第二峰顯著性評估可確定第二峰是否(例如相對於主峰)超過某個閾值。替代地或另外地，第二峰顯著性評估可以檢查第二峰的相關落後值或ITD值是否在兩個或更多(後續的)幀上足夠接近。然而，也可選擇檢查第二峰的其它條件。

應當注意，關於主峰檢查器854描述的功能可選擇集成到主峰判定器850中。此外，第二峰顯著性評估的功能特性可選擇包括在第二峰判定860中。而且，應當注意，在判定描述主峰的資訊856和描述第二峰的資訊866時，可能完全不檢查，或檢查上述條件中部分或全部或者附加條件。

此外，應當注意，描述主峰的資訊856可選擇僅指示是否已經找到有效主峰。而且，描述第二峰值的資訊866可選擇僅指示是否找到了有效的第二峰。然而，資訊856、866還可選擇描述關於這些峰的細節，例如相關落後和/或ITD和/或峰值。

音訊編碼器800可選擇包括檢測大於閾值的主峰的相關落後或ITD的變化的檢測器870，並且提供描述是否存在這種變化的資訊872。

音訊編碼器800還包括一切換決定880，切換決定880被配置成判定與輸入音訊表示的不同通道有關的參數多通道表示832或分別的編碼資訊836是否應包括在編碼音訊表示中。

在簡單情况下，切換決定880可以簡單地檢查一顯著(或有效)的第二峰是否可用。如果只有單一峰(即主峰)，則可以使用參數多通道編碼830(或者參數多通道表示832可以包括在編碼的音訊表示中)。如果描述第二峰的資訊866指示存在顯著的(或有效的)第二峰值，則切換決策可決定使用單獨的編碼834(或將與輸入音訊表示的不同通道有關的單獨的編碼資訊836包括在編碼音訊表示中)。

然而，切換決策可選擇使用一個或多個附加標準來決定哪些資訊應被包括在編碼音訊表示中。

例如，切換決定可選擇考慮是否存有大於(預定的或可變的)閾值的主峰的變化，其中，切換決定可以切換到使用單獨編碼834(或將與輸入音訊再現的不同通道有關的分別編碼資訊836包括到編碼音訊表示中)，以響應於主峰的變化大於閾值(其例如，可以由資訊872來表示)。

作為另一示例，切換決定可選擇考慮一指示一先前幀是否已在活動(active)的指示(例如SAD旗標)。例如，如果切換決定發現前一幀已不活動，則切換決定可選擇抑制切換。

然而，切換決定還可選擇評估關於輸入音訊表示的其它訊號特性的資訊，並且也根據該資訊做出應該將哪些資訊包括到編碼音訊表示中的決定。

總之，音訊編碼器800根據對輸入音訊表示的特性的分析(例如，根據在互相關函數內可能存在「顯著」或「有效」峰的判定)來决定，例如是否逐幀地將與輸入音訊表示的不同通道有關的參數多通道表示832或分別的編碼資訊836包括到編碼音訊表示中。

但是，應該注意的是，功能在不同功能塊上的具體分佈並不重要。相反，如果需要，可以將部分或全部功能組合到單一功能塊中。

此外，還應注意，音訊編碼器800可選擇由本文公開的任何特徵、功能和細節來補充，這些特徵、功能和細節可以單獨地或組合地獲得。

此外，這裡公開的任何特徵、功能和細節可選擇引入本文公開的任何實施例中，包括單獨的和在組合中採用的。

7.實施備案

儘管在設備(apparatus)的上下文中描述了一些方面，但是很明顯，這些方面還表示對應方法的描述，其中塊或裝置對應於方法步驟或方法步驟的特徵。類似地，在方法步驟的上下文中描述的方面也表示對應裝置的對應塊或項目或特徵的描述。部分或全部方法步驟可由(或使用)諸如微處理器、可程式設計電腦或電子電路之類的硬體設備來執行。在一些實施例中，一個或多個最重要的方法步驟可以由這樣的設備執行。

本發明的編碼音訊訊號可以儲存在數位儲存媒體上，或者可以在諸如無線傳輸媒體的傳輸媒體上，或者在諸如網路的有線傳輸媒體上傳輸。

依據某些實現要求，本發明的實施例可以用硬體或軟體實現。可以使用數位儲存媒體(例如軟碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行此實現，此數位儲存媒體上儲存有電子可讀控制訊號，與可程式設計電腦系統合作(或能夠合作)，以便執行相應的方法。

依照本發明的一些實施例包括具有電子可讀控制訊號的資料載體，其能夠與可程式設計電腦系統合作，從而執行本文所述的方法之一。

一般來說，本發明的實施例可以實現為具有程式碼的電腦程式產品，程式碼用於在電腦上運行電腦程式產品時執行方法之一。程式碼例如可以存儲在機器可讀載體上。

其他實施例包括用於執行本文所述方法之一的電腦程式，其存儲在機器可讀載體或非暫態儲存介質上。

換言之，本發明方法的一個實施例是，因此，當電腦程式在電腦上運行時，具有用於執行本文所述方法之一的程式碼的電腦程式。

因此，本發明方法的另一實施例是資料載體(或數位儲存媒體或電腦可讀媒體)，其上記錄有用於執行本文所述方法之一的電腦程式。資料載體、數位儲存媒體或記錄媒體通常是實體的和/或非暫態的。

因此，本發明方法的另一實施例是表示用於執行本文所述方法之一的電腦程式的資料流或訊號序列。例如，資料流或訊號序列可以被配置成經由例如經由網路的資料通訊連接來移轉。

另一實施例包括處理手段，例如電腦或可程式設計邏輯元件，其被配置成或適應於執行本文所述方法之一。

另一實施例包括電腦，其上安裝有用於執行本文所述方法之一的電腦程式。

依照本發明的另一實施例包括將用於每次形成本文所述方法之一的電腦程式(例如，電子或光學地)傳送到接收器的設備或系統。例如，接收器可以是電腦、行動裝置、記憶體設備等。例如，該設備或系統可以包括用於將電腦程式傳送到接收機的檔案伺服器。

在一些實施例中，可程式設計邏輯元件(例如場域可程式設計閘陣列)可用於執行本文所述方法的部分或全部功能。在一些實施例中，場域可程式設計閘陣列可以與微處理器合作以執行本文描述的方法之一。通常，這些方法優選地由任何硬體設備來執行。

本文所描述的設備可以使用硬體裝置或電腦來實現，或者使用硬體裝置和電腦的組合來實現。

本文所描述的設備或本文所描述的設備的任何組件可以至少部分地在硬體和/或軟體中實現。

這裡描述的方法可以使用硬體設備、或使用電腦、或使用硬體設備和電腦的組合來執行。

本文描述的方法或本文描述的設備的任何組件可以至少部分地通過硬體和/或軟體來執行。

上述實施例僅僅是對本發明的原理的說明。應當理解，對本領域技術人員來說，這裡描述的佈置和細節的修改和變化將是顯而易見的。因此，意圖僅限於即將提出的專利請求項的範圍，而不限於通過本文中的實施例的描述和解釋而呈現的具體細節。

參考資料

[1] S. Bayer , M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, "APPARATUSES AND METHODS FOR ENCODING OR DECODING A MULTI-CHANNEL AUDIO SIGNAL USING FRAME CONTROL SYNCHRONIZATION", WO17125562, 27 July 2017.

[2] M. Schroeder and B. Atal, "Code-excited linear prediction(CELP): High-quality speech at very low bit rates," in ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing, Tampa, FL, USA, 1985.

[3] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, " APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL USING A BROADBAND ALIGNMENT PARAMETER AND A PLURALITY OF NARROWBAND ALIGNMENT PARAMETERS", WO17125558, 27 July 2017.

[4] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.