TW202411984A

TW202411984A - 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法

Info

Publication number: TW202411984A
Application number: TW112134093A
Authority: TW
Inventors: 斯里坎特寇斯; 史蒂芬拜爾; 馬庫斯穆爾特斯; 古拉米福契斯; 安德利亞尹申瑟; 卡珀薩格諾斯基; 史蒂芬多希拉; 珍Ｆ基內
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2022-09-09
Filing date: 2023-09-07
Publication date: 2024-03-16

Abstract

本發明提供一種根據一實施例之音訊編碼器(100)。該音訊編碼器(100)包含一傳送信號產生器(110)，該傳送信號產生器用於自音訊輸入產生一傳送信號之二個或更多個傳送通道，該音訊輸入包含多個音訊輸入對象及多個音訊輸入通道中之至少一者。此外，該音訊編碼器(100)包含一語音活動判定器(120)，該語音活動判定器用於判定該傳送信號之一語音活動決策，該語音活動決策指示該傳送信號內之該音訊輸入是否展現語音活動。此外，該音訊編碼器(100)包含一位元流產生器(130)，該位元流產生器用於依據該音訊輸入產生一位元流。若該語音活動判定器(120)已判定該傳送信號展現語音活動，則該位元流產生器(130)適於對該位元流內之該等二個或更多個傳送通道進行編碼。若該語音活動判定器(120)已判定該傳送信號未展現語音活動，則該位元流產生器(130)適合於對關於一背景雜訊之資訊而非該等二個或更多個傳送通道進行編碼，其中關於該背景雜訊之該資訊包含關於該等二個或更多個傳送通道中之至少一者的一背景雜訊之資訊或關於一導出信號之一背景雜訊的資訊，該導出信號取決於該等二個或更多個傳送通道中之至少一者。

Description

用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法

發明領域

本發明係關於經參數化寫碼之具有元資料之獨立串流(ISM)的音訊場景，係關於用於經參數化寫碼之具有元資料之獨立串流(ISM)的音訊場景之不連續傳輸(DTX)模式及舒適雜訊產生(CNG)，係關於沉浸式語音及音訊服務(IVAS)。詳言之，本發明係關於用於具有元資料之參數化經寫碼獨立串流之不連續傳輸(用於Param-ISM之DTX)的寫碼器及方法。

發明背景

在IVAS編解碼器中，在低位元速率下，以參數方式對音訊對象或具有元資料之獨立串流進行寫碼。在第一步驟中，降混(例如，立體聲降混或虛擬心形線)及元資料可例如自音訊對象且自經量化方向資訊(例如，自方位角及仰角)計算得出。降混隨後經編碼例如以獲得一或多個傳送通道，且可例如連同元資料一起傳輸至解碼器。元資料可例如包含方向資訊(例如，方位角及仰角)、功率比及對應於為輸入對象子集之主要對象之對象索引。在解碼器處，共變數呈現器可例如接收經傳輸元資料以及立體聲降混/傳送通道作為輸入，且可例如將其呈現至所需擴音器佈局(參見[1]、[2])。

通常，在通訊編解碼器中，不連續傳輸(DTX)用以在不存在語音輸入的情況下大幅度減小傳輸速率。在此模式中，訊框首先經分類為「作用」訊框(亦即，含有話音之訊框)及「非作用」訊框(亦即，含有背景雜訊或靜音之訊框)。稍後，對於非作用訊框，編解碼器以DTX模式運行以大幅度減小傳輸速率。經判定為包含背景雜訊之大部分訊框停止傳輸且經替換為解碼器處之一些舒適雜訊產生(CNG)。對於此等訊框，信號之極低速率參數表示係藉由定期但並非在每一訊框處發送之靜音插入描述符(SID)訊框傳輸。此允許解碼器中之CNG產生類似於實際背景雜訊之人工雜訊。

根據先前技術使用之概念係不連續傳輸(DTX)。舒適雜訊產生器通常用於話音之不連續傳輸。根據此概念，話音首先藉由語音活動偵測器(VAD)分類為活動及非作用訊框。VAD之實例可見於[3]中。基於VAD結果，僅以標稱位元速率寫碼及傳輸作用話音訊框。在僅存在背景雜訊或靜音之長停頓期間，位元速率降低或調零，且背景雜訊以章節及參數方式寫碼。因此顯著降低平均位元速率。雜訊係在解碼器側處由舒適雜訊產生器(CNG)在非作用訊框期間產生。舉例而言，話音寫碼器AMR-WB [3]及3GPP EVS [4]、[5]二者有可能在DTX模式中運行。高效CNG之實例在[6]中給出。在IVAS編解碼器中，不連續傳輸(DTX)系統存在於藉由定向音訊寫碼(DirAC)範式參數化或以元資料輔助空間音訊(MASA)格式傳輸的音訊場景(參見[7])。

在具有元資料之離散獨立串流(離散ISM)中，離散ISM之編碼器接受音訊對象及其相關聯元資料。接著基於訊框將對象連同包含對象方向資訊(例如，方位角及仰角)之元資料一起單獨編碼，且接著將編碼傳輸至解碼器。解碼器接著對個別對象進行獨立解碼且藉由使用經量化方向資訊應用幅值平移技術將其呈現至指定輸出佈局。

先前技術之另一概念係具有元資料之參數經寫碼獨立串流(Param-ISM)。圖4繪示對應編碼器之概述，其中尤其描繪經編碼音訊信號491及經編碼參數旁側資訊495、496、497。

參數ISM(Param-ISM)之編碼器接收音訊對象及相關聯元資料作為輸入。元資料可例如在訊框基礎上包含對象方向(例如，值例如介於[180, 180]之間的方位角，及例如值例如介於[90, 90]之間的仰角)，該對象方向接著經量化且在計算立體聲降混(例如，虛擬心形線或傳送通道)期間使用。另外，在輸入音訊對象當中，二個主要對象及二個主要對象之間的功率比可例如按時間/頻率塊判定。元資料可例如接著連同二個主要對象之對象索引按時間/頻率塊一起經量化及編碼。

經編碼位元流490可例如包含藉助於核心寫碼器單獨編碼之立體聲降混/傳送通道491、經編碼之主要對象索引495、經量化及編碼之功率比496及經量化及編碼之方向資訊497(例如，方位角及仰角)。

圖5繪示解碼器之簡化概述。解碼器接收位元流490且獲得經編碼立體聲降混/傳送通道491、經編碼對象索引495、經編碼功率比496及經編碼方向資訊497。經編碼立體聲降混/傳送通道491接著使用核心解碼器解碼且使用解析濾波器組(例如複合低延遲濾波器組(CLDFB))轉換成時間/頻率表示。經解碼對象索引可例如連同經解碼及經解量化之方向資訊(例如，方位角及仰角及輸出組態，例如5.1、5.1+4、7.1、7.1+4等)一起用以計算方向回應。直接回應可例如連同呈時間/頻率表示之傳送通道/立體聲降混、原型矩陣及經解碼及經解量化功率比一起提供，作為至在時間/頻域中操作之共變數合成的輸入。使用合成濾波器(例如，CLDFB)將共變數合成之輸出自時間/頻率表示轉換為時域表示。

圖6繪示共變數合成步驟之詳細概述，而不反映輸入/輸出資料之維度。

共變數合成計算每時間/頻率塊之混合矩陣(M)，該混合矩陣將輸入傳送通道呈現 ( ) 至所要輸出揚聲器佈局 ( ) (例如，5.1揚聲器佈局、7.1揚聲器佈局、7.1+4揚聲器佈局等)：

對於混合矩陣，共變數合成可使用原型矩陣、輸入共變數矩陣及目標共變數矩陣。藉助於自傳送通道/立體聲降混、功率比及直接回應計算出之信號功率計算目標共變數矩陣。

本發明之目的係提供用於音訊內容之不連續傳輸之改良概念。本發明之目的係藉由獨立申請專利範圍之主題解決。

發明概要

提供一種根據實施例之音訊編碼器。音訊編碼器包含傳送信號產生器，該傳送信號產生器用於自音訊輸入產生傳送信號之二個或更多個傳送通道，該音訊輸入包含多個音訊輸入對象及多個音訊輸入通道中之至少一者。此外，音訊編碼器包含語音活動判定器，該語音活動判定器用於判定傳送信號之語音活動決策，該語音活動決策指示傳送信號內之音訊輸入是否展現語音活動。此外，音訊編碼器包含位元流產生器，該位元流產生器用於依據音訊輸入產生位元流。若語音活動判定器已判定傳送信號展現語音活動，則位元流產生器適於對位元流內之二個或更多個傳送通道進行編碼。若語音活動判定器已判定傳送信號未展現語音活動，則位元流產生器適合於對關於背景雜訊之資訊而非二個或更多個傳送通道進行編碼，其中關於背景雜訊之資訊包含關於二個或更多個傳送通道中之至少一者的背景雜訊之資訊或關於導出信號之背景雜訊的資訊，該導出信號取決於二個或更多個傳送通道中之至少一者。

舉例而言，根據實施例，傳送通道之數目小於或等於輸入通道之數目。

此外，提供一種根據實施例之用於音訊編碼之方法。該方法包含： - 自音訊輸入產生傳送信號之二個或更多個傳送通道，該音訊輸入包含多個音訊輸入對象及多個音訊輸入通道中之至少一者。 - 判定傳送信號之語音活動決策，該語音活動決策指示傳送信號內之音訊輸入是否展現語音活動。以及： - 依據音訊輸入判定位元流。

若已判定傳送信號展現語音活動，則方法包含對位元流內之二個或更多個傳送通道進行編碼。若已判定傳送信號未展現語音活動，則方法包含對關於二個或更多個傳送通道中之至少一者的背景雜訊之資訊或關於導出信號之背景雜訊的資訊，而非二個或更多個傳送通道進行編碼，該導出信號取決於二個或更多個傳送通道中之至少一者。

此外，提供一種電腦程式，其用於在執行於電腦或信號處理器上時實施上述方法。

另外，提供一種根據實施例之音訊解碼器。音訊解碼器包含用於接收位元流之輸入介面，該位元流取決於包含多個音訊對象及多個音訊通道中之至少一者的音訊內容。包含二個或更多個傳送通道之傳送信號編碼於位元流內，且音訊內容編碼於傳送信號內。或者，關於背景雜訊之資訊編碼於位元流而非傳送信號內，且關於背景雜訊之資訊包含關於二個或更多個傳送通道中之至少一者的背景雜訊之資訊或關於導出信號之背景雜訊的資訊，該導出信號取決於二個或更多個傳送通道中之至少一者。此外，音訊解碼器包含呈現器，以用於依據編碼有位元流之音訊內容產生一或多個音訊輸出信號。若包含二個或更多個傳送通道之傳送信號編碼於位元流內，則呈現器經組配以依據二個或更多個傳送通道產生一或多個音訊輸出信號。若關於背景雜訊之資訊編碼於位元流而非傳送信號內，則呈現器經組配以依據關於背景雜訊之資訊產生一或多個音訊輸出信號。

此外，提供一種用於音訊解碼之方法。該方法包含： - 接收取決於音訊內容之位元流，該音訊內容包含多個音訊對象及多個音訊通道中之至少一者。包含二個或更多個傳送通道之傳送信號編碼於位元流內。音訊內容編碼於傳送信號內。或者，關於背景雜訊之資訊編碼於位元流而非傳送信號內，且關於背景雜訊之資訊包含關於二個或更多個傳送通道中之至少一者的背景雜訊之資訊或關於導出信號之背景雜訊的資訊，該導出信號取決於二個或更多個傳送通道中之至少一者。以及： - 依據編碼有位元流之音訊內容產生一或多個音訊輸出信號。

若包含二個或更多個傳送通道之傳送信號編碼於位元流內，則產生一或多個音訊輸出信號依據二個或更多個傳送通道進行。若關於背景雜訊之資訊編碼於位元流而非傳送信號內，則產生一或多個音訊輸出信號依據關於背景雜訊之資訊進行。

另外，提供一種電腦程式，其用於在執行於電腦或信號處理器上時實施上述方法。

一些實施例係基於如下發現：藉由組合現有解決方案，可例如對個別串流，例如對音訊對象或對個別通道，例如立體聲降混/傳送通道獨立地應用DTX。然而，此將與經設計用於低位元速率通訊之DTX不相容，此係由於對於多於一個對象或對於傳送通道或對於與多於一個通道之降混，可用數目之位元將不足以有效地描述輸入信號之非作用部分。另外，歸因於個別VAD決策並不同步，此類方法亦將面臨問題。將產生空間偽聲。

在實施例中，提供用於由(音訊)對象及其相關聯元資料描述之音訊場景的DTX系統。

一些實施例提供用於經參數化寫碼之音訊對象(亦稱為ISM，亦即具有元資料之獨立串流) (例如，作為Param-ISM)的DTX系統且尤其SID及CNG。

在一些實施例中，實現用於傳輸沉浸式會話式話音之位元速率需求的急劇減少。

根據一些實施例，提供DTX概念，其擴展至具有空間提示之沉浸式話音。

在一些實施例中，考慮每時間/頻率單位的二個最主要對象。在其他實施例中，考慮每時間/頻率單位的多於二個最主要對象，尤其對於增大數目之輸入對象。為了文字的可讀性，主要關於每時間/頻率單位之二個主要對象描述下文中之實施例，但類似地，此等實施例可例如在其他實施例中擴展至每時間/頻率單位的多於二個主要對象。

提供音訊編碼器之特定實施例。

根據實施例，提供一種用於對多個(音訊)對象及其相關聯元資料進行編碼之音訊編碼器。

音訊編碼器可例如包含用於擷取方向資訊之方向資訊判定器及用於量化方向資訊之方向資訊量化器。

此外，音訊編碼器可例如包含產生傳送信號(降混)之傳送信號產生器(降混器)，該傳送信號包含來自輸入音訊對象及來自與輸入音訊對象相關聯之經量化方向資訊(例如，方位角及仰角)的至少二個傳送通道(例如，降混通道)。

此外，音訊編碼器可例如包含決策邏輯模組，該決策邏輯模組用於組合傳送通道之個別VAD決策以計算關於訊框是否在作用中之總體決策。

此外，音訊編碼器可例如包含單聲道信號產生器(例如，立體聲至單聲道轉換器)，該單聲道信號產生器用於自待在非作用階段中編碼的傳送通道輸出單聲道信號。

此外，音訊編碼器可例如包含非作用元資料產生器，該非作用元資料產生器用於產生(例如，計算)待在非作用階段期間傳輸之非作用元資料。

此外，音訊編碼器可例如包含作用元資料產生器，該作用元資料產生器用於產生(例如，計算)待在作用階段期間傳輸之作用元資料。

此外，音訊編碼器可例如包含傳送通道編碼器，該傳送通道編碼器經組配以藉由對包含處於作用階段中之傳送通道的經降混信號進行編碼來產生經編碼資料。

此外，音訊編碼器可例如包含傳送通道靜音插入描述產生器，該傳送通道靜音插入描述產生器用於在非作用階段中產生單聲道信號之背景雜訊的靜音插入描述。

此外，音訊編碼器可例如包含多工器，該多工器用於在作用階段期間將作用元資料及經編碼資料組合成位元流，且用於不發送資料或用於發送靜音插入描述。或者，多工器可例如經組配以用於在非作用階段期間組合發送靜音插入描述及非作用元資料。

根據實施例，傳送信號產生器/降混器可例如應用CELP寫碼方案(CELP=碼激勵線性預測)，或可例如應用基於MDCT之寫碼方案(MDCT=修改型離散餘弦轉換)，或可例如應用該等二個寫碼方案之轉換組合。

在實施例中，作用階段及非作用階段可例如藉由首先單獨在傳送/降混通道上運行語音活動偵測器且隨後組合傳送/降混通道之結果以判定總體決策而判定。

根據實施例，單聲道信號可例如藉由添加傳送通道或例如藉由選擇具有較長期能量之通道而自傳送/降混通道計算出。

在實施例中，作用及非作用元資料可例如在量化解析度方面不同，或在(所使用之)參數之類型(性質)方面不同。

根據實施例，經傳輸方向資訊及用以計算降混之方向資訊的量化解析度可例如在非作用階段中不同。

在實施例中，空間音訊輸入格式可例如由對象及其相關聯元資料(例如，由具有元資料之獨立串流)描述。

根據實施例，可例如產生二個或更多個傳送通道。

此外，提供音訊解碼器之特定實施例。

根據實施例，一種用於(解碼及)自位元流產生空間音訊輸出信號之音訊解碼器。位元流可例如展現至少一作用階段繼之以至少一非作用階段。此外，位元流可例如已在其中至少編碼有靜音插入描述符訊框(SlD)，該靜音插入描述符訊框可例如描述傳送/降混通道及/或空間影像資訊之背景雜訊特性。

音訊解碼器可例如包含SID解碼器(靜音插入描述符解碼器)，該SID解碼器可例如經組配以對單聲道信號之靜音插入描述符訊框進行解碼。

此外，音訊解碼器可例如包含單聲道至立體聲轉換器，該單聲道至立體聲轉換器可例如經組配以在非作用階段/模式期間自單聲道信號之SID資訊及控制參數產生至少二個(降混)通道，該等控制參數可例如描述立體聲降混/傳送通道，例如比例參數及/或在編碼器側自立體聲降混/傳送通道計算之例如寬頻帶相干性或寬頻帶相關性之特性。

此外，音訊解碼器可例如包含傳送通道解碼器，該傳送通道解碼器可例如經組配以在作用階段/模式期間根據作用階段期間的位元流重構傳送/降混通道。

此外，音訊解碼器可例如包含(空間)呈現器，該呈現器可例如經組配以在作用階段/模式期間根據非作用階段期間的經解碼傳送/降混通道、例如根據經傳輸作用元資料、例如根據傳送/降混通道中之經重構背景雜訊及例如根據經傳輸非作用元資料重構空間輸出信號。

根據實施例，單聲道至立體聲轉換器可例如包含隨機產生器，該隨機產生器可例如運用不同種子執行至少二次以產生雜訊，且所產生雜訊可例如使用單聲道信號之經解碼SID資訊及使用控制參數來處理，該等控制參數可例如描述立體聲降混/傳送通道，例如比例參數及/或在編碼器側自立體聲降混/傳送通道計算之例如寬頻帶相干性或寬頻帶相關性之特性。

在實施例中，在作用階段中傳輸之空間參數可例如包含對象索引、功率比(其可例如在頻率子頻帶中傳輸)及方向資訊(例如，方位角及仰角)，該方向資訊可例如為經傳輸寬頻帶。

根據實施例，在非作用階段中傳輸之空間參數可例如包含方向資訊(例如，方位角及仰角) (其可例如為經傳輸寬頻帶)及控制參數，該等控制參數可例如描述立體聲降混/傳送通道，例如比例參數及/或在編碼器側自立體聲降混/傳送通道計算之例如寬頻帶相干性或寬頻帶相關性之特性。

在實施例中，非作用階段中之方向資訊的量化解析度不同於作用階段中之方向資訊的量化解析度。

根據實施例，控制參數之傳輸可例如在寬頻帶中進行或可例如在頻率子頻帶中進行，其中係在寬頻帶中進行抑或在頻率子頻帶中進行之決策可例如依據位元速率可用性判定。

在實施例中，呈現器可例如經組配以進行共變數合成。

呈現器可例如包含信號功率計算單元，以用於依據每時間/頻率塊之傳送/降混通道計算參考功率。

此外，呈現器可例如包含直接功率計算單元，以用於在作用階段中使用傳輸功率比且在非作用階段中使用恆定比例因子按比例調整參考功率。

此外，呈現器可例如包含直接回應計算單元，以用於依據主要對象在作用階段期間之經量化方向資訊或依據所有經傳輸對象在非作用階段期間之經量化方向資訊計算直接回應。

此外，呈現器可例如包含輸入共變數矩陣計算單元，以用於基於傳送/降混通道計算輸入共變數矩陣。

此外，呈現器可例如包含目標共變數矩陣計算單元，以用於基於直接回應計算區塊及直接功率計算區塊之輸出計算目標共變數矩陣。

此外，呈現器可例如包含混合矩陣計算單元，以用於依據輸入共變數矩陣且依據目標共變數矩陣計算混合矩陣以供呈現。

根據實施例，在非作用階段期間使用之恆定比例因子可例如依據經傳輸對象數目判定；或可例如使用控制參數。

在實施例中，主要對象可例如為所有經傳輸對象之子集，且主要對象之數目可例如少於/小於經傳輸對象之數目。

根據實施例，傳送通道解碼器可例如包含話音解碼器(例如，基於CELP之話音解碼器)，及/或可例如包含通用音訊解碼器(例如，基於TCX之解碼器)，及/或可例如包含頻寬擴展模組。

其他特定實施例提供於附屬申請專利範圍中。

較佳實施例之詳細說明

圖1繪示根據實施例之音訊編碼器100。

音訊編碼器100包含傳送信號產生器110，該傳送信號產生器用於自音訊輸入產生傳送信號之二個或更多個傳送通道，該音訊輸入包含多個音訊輸入對象及多個音訊輸入通道中之至少一者。

此外，音訊編碼器100包含語音活動判定器120，該語音活動判定器用於判定傳送信號之語音活動決策，該語音活動決策指示傳送信號內之音訊輸入是否展現語音活動。

此外，音訊編碼器100包含位元流產生器130，該位元流產生器用於依據音訊輸入產生位元流。

若語音活動判定器120已判定傳送信號展現語音活動，則位元流產生器130適於對位元流內之二個或更多個傳送通道進行編碼。

若語音活動判定器120已判定傳送信號未展現語音活動，則位元流產生器130適合於對關於背景雜訊之資訊而非二個或更多個傳送通道進行編碼，其中關於背景雜訊之資訊包含關於二個或更多個傳送通道中之至少一者的背景雜訊之資訊或關於導出信號之背景雜訊的資訊，該導出信號取決於二個或更多個傳送通道中之至少一者。

根據實施例，語音活動判定器120可例如經組配以判定傳送信號之一或多個傳送通道中之各傳送通道的個別語音活動決策，該個別語音活動決策指示傳送通道內之音訊輸入是否展現語音活動。此外，語音活動判定器120可例如經組配以依據一或多個傳送通道中之各傳送通道的個別語音活動決策判定傳送信號之語音活動決策。

在實施例中，語音活動判定器120可例如經組配以判定傳送信號之二個或更多個傳送通道中之各傳送通道的個別語音活動決策，該個別語音活動決策指示該傳送通道內之音訊輸入是否展現語音活動。另外，語音活動判定器120可例如經組配以依據傳送信號之二個或更多個傳送通道中之各傳送通道的個別語音活動決策判定傳送信號之語音活動決策。

根據實施例，語音活動判定器120可例如經組配以在傳送信號之二個或更多個傳送通道中之至少一者展現語音活動的情況下判定傳送信號展現語音活動。此外，語音活動判定器120可例如經組配以在傳送信號之二個或更多個傳送通道中無一者展現語音活動的情況下判定傳送信號未展現語音活動。

在實施例中，音訊編碼器100可例如經組配以在語音活動判定器120已判定傳送信號未展現語音活動的情況下，判定是否傳輸已在其中編碼關於背景雜訊之資訊的位元流，或是否不產生及不傳輸位元流。

根據實施例，音訊編碼器100可例如包含一單聲道信號產生器830(參見圖8)，該單聲道信號產生器用於在語音活動判定器120已判定傳送信號未展現語音活動的情況下產生導出信號，作為來自二個或更多個傳送通道中之至少一者的單聲道信號。音訊編碼器100可例如包含資訊產生器，該資訊產生器用於產生關於背景雜訊之資訊作為關於單聲道信號之背景雜訊的資訊。

在實施例中，單聲道信號產生器830可例如經組配以藉由添加二個或更多個傳送通道或藉由添加自二個或更多個傳送通道導出之二個或更多個通道而產生單聲道信號。或者，單聲道信號產生器830可例如經組配以藉由選擇二個或更多個傳送通道中展現較高能量之傳送通道而產生單聲道信號。

根據實施例，資訊產生器可例如經組配以產生關於單聲道信號之背景雜訊的資訊作為關於單聲道信號之資訊。

在實施例中，資訊產生器可例如經組配以產生單聲道信號之背景雜訊之靜音插入描述作為關於單聲道信號之背景雜訊的資訊。

根據實施例，音訊編碼器100可例如包含方向資訊判定器802(參見圖8)以用於依據音訊輸入判定方向資訊。音訊編碼器100可例如包含方向資訊量化器804(參見圖8)以用於量化方向資訊以獲得經量化方向資訊。位元流產生器130可例如經組配以對位元流內之經量化方向資訊進行編碼。

在實施例中，傳送信號產生器110可例如經組配以使用方向資訊自音訊輸入產生傳送信號之二個或更多個傳送通道。

根據實施例，音訊輸入可例如包含多個音訊輸入對象。方向資訊可例如包含關於音訊輸入之多個音訊輸入對象中之音訊輸入對象的方位角及仰角的資訊。

在實施例中，音訊編碼器100可例如包含作用元資料產生器825(參見圖8)，該作用元資料產生器用於在語音活動判定器120已判定傳送信號展現語音活動的情況下產生元資料，該元資料包含音訊輸入之多個音訊輸入對象及或多個音訊輸入通道之經量化方向資訊、對象索引及功率比中之至少一者。

根據實施例，音訊輸入可例如包含多個音訊輸入對象。音訊編碼器100可例如包含非作用元資料產生器826(參見圖8)以用於在語音活動判定器120已判定傳送信號未展現語音活動的情況下產生元資料，該元資料包含經量化方向資訊及控制參數，諸如取決於音訊輸入之多個音訊輸入對象中之音訊輸入對象數目的比例因子，或取決於傳送信號之傳送通道的長期能量及/或取決於傳送信號之傳送通道之間的相干性或相關性的比例因子。

在實施例中，可例如由非作用元資料產生器826產生之方向資訊的量化解析度不同於可例如由作用元資料產生器825產生之方向資訊的量化解析度。

在實施例中，可例如由非作用元資料產生器826產生之元資料的特性不同於可例如由作用元資料產生器825產生之元資料的特性。

根據實施例，音訊輸入可例如包含多個音訊輸入對象及與音訊輸入對象相關聯之元資料。

在實施例中，傳送信號產生器110可例如經組配以自音訊輸入產生傳送信號之二個或更多個傳送通道，包含藉由對多個音訊輸入對象及多個音訊輸入通道中之至少一者進行降混以獲得降混作為傳送信號，其可例如包含二個或更多個降混通道作為二個或更多個傳送通道。

根據實施例，若傳送信號內之音訊輸入未展現語音活動，則方向資訊量化器804經組配以判定經量化方向資訊，使得經量化方向資訊之量化解析度可例如不同於用於計算降混之量化解析度。

在實施例中，位元流產生器130可例如經組配以在語音活動判定器120已判定傳送信號未展現語音活動的情況下對位元流內的控制參數進行編碼。控制參數可例如適合於控制自隨機雜訊產生中間信號。控制參數可例如包含多個子頻帶之多個參數值，或其中控制參數可例如包含單一寬頻帶控制參數。

根據實施例，音訊編碼器100可例如經組配以藉由依據可用位元速率選擇控制參數是否可例如包含多個子頻帶之多個參數值，或控制參數是否可例如包含單一寬頻帶控制參數而產生控制參數。

在實施例中，傳送信號產生器110可例如經組配以藉由應用碼激勵線性預測或藉由應用修改型離散餘弦轉換或藉由應用碼激勵線性預測與修改型離散餘弦轉換之組合來對音訊輸入進行編碼。

根據實施例，若音訊輸入包含多個音訊輸入通道而非多個音訊輸入對象，則二個或更多個傳送通道之數目可例如小於多個音訊輸入通道之數目。若音訊輸入包含多個音訊輸入對象而非多個音訊輸入通道，則二個或更多個傳送通道之數目可例如小於多個音訊輸入對象之數目。若音訊輸入包含多個音訊輸入對象及多個音訊輸入通道二者，則二個或更多個傳送通道之數目可例如小於多個音訊輸入通道之數目與多個音訊輸入對象之數目的總和。

或者，根據實施例，若音訊輸入包含多個音訊輸入通道而非多個音訊輸入對象，則二個或更多個傳送通道之數目可例如小於或等於多個音訊輸入通道之數目。若音訊輸入包含多個音訊輸入對象而非多個音訊輸入通道，則二個或更多個傳送通道之數目可例如小於或等於多個音訊輸入對象之數目。若音訊輸入包含多個音訊輸入對象及多個音訊輸入通道二者，則二個或更多個傳送通道之數目可例如小於或等於多個音訊輸入通道之數目與多個音訊輸入對象之數目的總和。

圖2繪示根據實施例之音訊解碼器200。

音訊解碼器200包含用於接收位元流之輸入介面210，該位元流取決於包含多個音訊對象及多個音訊通道中之至少一者的音訊內容。包含二個或更多個傳送通道之傳送信號編碼於位元流內，且音訊內容編碼於傳送信號內。或者，關於背景雜訊之資訊編碼於位元流而非傳送信號內，且關於背景雜訊之資訊包含關於二個或更多個傳送通道中之至少一者的背景雜訊之資訊或關於導出信號之背景雜訊的資訊，該導出信號取決於二個或更多個傳送通道中之至少一者。

此外，音訊解碼器200包含呈現器220，該呈現器用於依據編碼有位元流之音訊內容產生一或多個音訊輸出信號。

若包含二個或更多個傳送通道之傳送信號編碼於位元流內，則呈現器220經組配以依據二個或更多個傳送通道產生一或多個音訊輸出信號。

若關於背景雜訊之資訊編碼於位元流而非傳送信號內，則呈現器220經組配以依據關於背景雜訊之資訊產生一或多個音訊輸出信號。

根據實施例，若音訊內容展現語音活動，則包含二個或更多個傳送通道之傳送信號可例如編碼於位元流內。若音訊內容未展現語音活動，則關於背景雜訊之資訊可例如編碼於位元流而非傳送信號內。

在實施例中，音訊解碼器200可例如包含解多工器902、雜訊資訊判定器920及多通道產生器930(參見圖9)。解多工器可例如經組配以基於位元流之大小判定經傳輸位元流是否對應於作用或非作用訊框。若關於背景雜訊之資訊編碼於位元流內，則雜訊資訊判定器920可例如經組配以判定關於來自位元流之背景雜訊的資訊，多通道產生器930可例如經組配以自關於背景雜訊之資訊產生導出信號作為包含二個或更多個中間通道之中間信號，且呈現器220可例如經組配以依據中間信號之二個或更多個中間通道產生一或多個音訊輸出信號。

根據實施例，多通道產生器930可例如包含用於產生隨機雜訊之隨機產生器。多通道產生器930可例如經組配以依據隨機雜訊產生二個或更多個中間通道。

在實施例中，多通道產生器930可例如經組配以依據關於背景雜訊之資訊對隨機雜訊進行整形，以獲得成形雜訊。多通道產生器930可例如經組配以自成形雜訊產生二個或更多個中間通道。

根據實施例，多通道產生器930可例如經組配以運用不同種子運行隨機產生器至少二次以獲得隨機雜訊。

在實施例中，多通道產生器930可例如經組配以依據隨機雜訊且依據控制參數(例如取決於傳送信號之傳送通道之比例及/或相干性或相關性)產生二個或更多個中間通道，其中控制參數可例如編碼於位元流內作為非作用元資料之部分。

根據實施例，控制參數可例如編碼於位元流內，且可例如包含多個子頻帶之多個參數值，且多通道產生器930可例如經組配以依據與該子頻帶相關聯之控制參數的多個參數值中之參數值產生二個或更多個中間通道之多個子頻帶中之各子頻帶。

在實施例中，控制參數可例如編碼於位元流內，其中控制參數可例如包含單一寬頻帶控制參數。

根據實施例，多通道產生器930可例如經組配以產生二個或更多個中間通道，其方式為藉由使用運用第一種子之隨機產生器產生隨機雜訊的第一隨機雜訊部分、藉由依據第一隨機雜訊部分產生二個或更多個中間通道中之第一者、藉由使用運用不同於第一種子之第二種子之隨機產生器產生隨機雜訊的第二隨機雜訊部分，以及藉由依據第二隨機雜訊部分產生二個或更多個中間通道中之第二者。

根據實施例，多通道產生器930可例如經組配以依據第一隨機雜訊部分、依據第三雜訊部分且依據控制參數(例如比例因子及/或例如相干性或相關性)產生二個或更多個中間通道中之第一者。此外，多通道產生器930可例如經組配以依據第二隨機雜訊部分、依據第三雜訊部分且依據控制參數(例如比例因子及/或例如相干性或相關性)產生二個或更多個中間通道中之第二者。多通道產生器930可例如經組配以使用運用第一種子之隨機產生器產生隨機雜訊的第一隨機雜訊部分、使用運用第二種子之隨機產生器產生隨機雜訊的第二隨機雜訊部分，且使用運用第三種子之隨機產生器產生隨機雜訊的第三隨機雜訊部分，其中第二種子不同於第一種子，且其中第三種子不同於第一種子且不同於第二種子。

在實施例中，多通道產生器930可例如經組配以產生二個或更多個中間通道，其方式為藉由依據隨機雜訊產生二個或更多個中間通道中之第一者且藉由自二個或更多個中間通道中之第一者產生二個或更多個中間通道中之第二者。

根據實施例，多通道產生器930可例如經組配以產生二個或更多個中間通道中之第二者，使得二個或更多個中間通道中之第二者可例如等同於二個或更多個中間通道中之第一者。或者，多通道產生器930可例如經組配以藉由修改二個或更多個中間通道中之第一者而產生二個或更多個中間通道中之第二者。

在實施例中，呈現器220可例如經組配以產生二個或更多個音訊輸出信號作為一或多個音訊輸出信號。

根據實施例，音訊內容可例如包含多個音訊對象。若音訊內容展現語音活動，則多個音訊對象索引與多個音訊對象相關聯，多個功率比與多個子頻帶之多個音訊對象相關聯，且多個音訊對象之寬頻帶方向資訊可例如編碼於位元流內，且呈現器220可例如經組配以依據多個音訊對象索引、依據多個功率比且依據多個音訊對象之寬頻帶方向資訊產生一或多個音訊輸出信號。

在實施例中，音訊內容可例如包含多個音訊對象。若音訊內容未展現語音活動，則多個音訊對象之寬頻帶方向資訊及控制參數可例如編碼於位元流內，且呈現器220可例如經組配以依據寬頻帶方向資訊且依據所有對象索引及恆定功率比產生一或多個音訊輸出信號，其中恆定功率比取決於經傳輸對象之數目。

根據實施例，在音訊內容展現語音活動時編碼於位元流內之寬頻帶方向資訊的第一量化解析度可例如不同於在音訊內容未展現語音活動時寬頻帶方向資訊之第二量化解析度。

在實施例中，呈現器220可例如包含信號功率計算單元951(參見圖10)，該信號功率計算單元用於依據多個時間頻率塊中之各者的二個或更多個傳送通道計算參考功率。此外，呈現器220可例如包含直接功率計算單元952(參見圖10)，該直接功率計算單元用於在音訊內容展現語音活動的情況下使用編碼於位元流內之經傳輸功率比，且在音訊內容未展現語音活動的情況下使用編碼於位元流內之比例因子按比例調整參考功率，以獲得按比例調整之參考功率。此外，呈現器220可例如經組配以依據按比例調整之參考功率產生一或多個音訊輸出信號。

根據實施例，呈現器220可例如包含用於計算直接回應的直接回應計算單元953(參見圖10)，其中呈現器220可例如經組配以在音訊內容展現語音活動的情況下，依據主要對象之經量化方向資訊為音訊內容的多個音訊對象之真子集計算直接回應，其中呈現器220可例如經組配以在音訊內容未展現語音活動的情況下依據音訊內容的所有音訊對象之經量化方向資訊計算直接回應，其中經量化方向資訊可例如編碼於位元流內。呈現器220可例如經組配以依據直接回應產生一或多個音訊輸出信號。

在實施例中，呈現器220可例如包含輸入共變數矩陣計算單元954(參見圖10)，該輸入共變數矩陣計算單元用於依據二個或更多個傳送通道計算輸入共變數矩陣。此外，呈現器220可例如包含目標共變數矩陣計算單元955(參見圖10)，該目標共變數矩陣計算單元用於依據直接回應且依據按比例調整之參考功率計算目標共變數矩陣。此外，呈現器220可例如包含混合矩陣計算單元956(參見圖10)，該混合矩陣計算單元用於依據輸入共變數矩陣且依據目標共變數矩陣計算混合矩陣以供呈現。呈現器220可例如經組配以依據混合矩陣產生一或多個音訊輸出信號。

根據實施例，呈現器220可例如經組配以藉由應用碼激勵線性預測，或藉由應用修改型離散餘弦轉換或修改型離散餘弦轉換之逆轉換，或藉由應用碼激勵線性預測與修改型離散餘弦轉換之組合產生傳送信號之一或多個傳送通道。

根據實施例，若音訊內容包含多個音訊通道而非多個音訊對象，則二個或更多個傳送通道之數目可例如小於多個音訊通道之數目。若音訊內容包含多個音訊對象而非多個音訊通道，則二個或更多個傳送通道之數目可例如小於多個音訊對象之數目。若音訊內容包含多個音訊對象及多個音訊通道二者，則二個或更多個傳送通道之數目可例如小於多個音訊通道之數目與多個音訊對象之數目的總和。

或者，根據實施例，若音訊內容包含多個音訊通道而非多個音訊對象，則二個或更多個傳送通道之數目可例如小於或等於多個音訊通道之數目。若音訊內容包含多個音訊對象而非多個音訊通道，則二個或更多個傳送通道之數目可例如小於或等於多個音訊對象之數目。若音訊內容包含多個音訊對象及多個音訊通道二者，則二個或更多個傳送通道之數目可例如小於或等於多個音訊通道之數目與多個音訊對象之數目的總和。

圖3繪示根據實施例之系統。系統包含根據上述實施例中之一者的音訊編碼器100及根據上述實施例中之一者的音訊解碼器200。

音訊編碼器100經組配以自音訊輸入產生位元流。

音訊解碼器200經組配以自位元流產生一或多個音訊輸出信號。

在下文中，詳細地描述實施例。

根據實施例，DTX系統(例如其編碼器)可例如經組配以依據立體聲降混通道之獨立決策及/或依據個別音訊對象判定訊框係不在作用中抑或在作用中的總體決策。

DTX系統(例如其編碼器)可例如經組配以使用靜音插入描述符(SID)連同非作用元資料將單聲道信號傳輸至解碼器。

此外，DTX系統(例如其解碼器)可例如經組配以根據僅單聲道信號之SID資訊使用舒適雜訊產生器(CNG)產生包含至少二個通道之傳送通道/降混。

此外，DTX系統(例如其解碼器)可例如經組配以運用控制參數後處理經產生傳送通道/降混，其中控制參數可例如在編碼器側自立體聲降混/傳送通道計算。

此外，DTX系統(例如其解碼器)可例如使用經修改共變數合成將多通道傳送信號呈現至經界定輸出佈局。

在下文中，描述其他特定實施例。

圖7繪示根據實施例之用於判定訊框係在作用中抑或不在作用中的方塊圖。總體決策係基於傳送通道/降混通道之個別決策。

在圖7中，傳送信號產生器(例如，降混器) 710可例如經組配以接收音訊對象及其相關聯經量化方向資訊(例如，方位角及仰角)。

用於第一傳送通道(例如，左降混通道)之傳送信號(例如，降混(DMX)) DMX _L 及用於第二傳送通道(例如，右降混通道)之傳送信號 DMX _R 可例如如下產生：其中 N為輸入對象之總數目， k為樣本索引且 i為對象索引

在另一實施例中，二個傳送通道(例如，降混通道)可例如如下使用降混矩陣 D產生：其中 … 表示音訊對象1至音訊對象 N。

此外，圖7描繪決策邏輯模組720，其包含個別決策邏輯722及總體決策邏輯725。

在圖7中，個別決策邏輯722可例如經組配以判定個別通道係在作用中抑或不在作用中。關於二個(或更多個)傳送通道中之各者在作用中抑或不在作用中的個別決策可例如藉由(例如，內部)旗標指示。

在實施例中，個別決策邏輯722可例如經組配以接收二個(或更多個)傳送通道作為輸入。個別決策邏輯722可例如經組配以例如藉由分析該傳送通道而針對二個(或更多個)傳送通道、中之各傳送通道判定該傳送通道是否展現語音活動。

在另一實施例中，個別決策邏輯722可例如分析由傳送信號產生器710用以形成二個(或更多個)傳送通道、的所有音訊輸入通道或所有音訊輸入對象。舉例而言，若個別決策邏輯722在音訊輸入通道或音訊輸入對象中之至少一者中偵測到語音活動，則個別決策邏輯722可例如斷定各別傳送通道中存在語音活動，且可例如斷定各別傳送通道在作用中。舉例而言，若個別決策邏輯722在用以產生各別傳送通道之音訊輸入通道或音訊輸入對象中之任一者中偵測到語音活動未偵測到語音活動，則個別決策邏輯722可例如斷定各別傳送通道中不存在語音活動，且可例如斷定各別傳送通道不在作用中。

此外，在圖7中，總體決策邏輯725可例如經組配以接收個別決策(例如，針對傳送通道)作為輸入，且可例如經組配以依據個別決策判定總體決策。舉例而言，總體決策邏輯725可例如使用DTX_FLAG例如指示決策。總體決策邏輯可例如根據下表1判定總體決策，該表基於逐訊框個別降混決策描繪逐訊框決策：

第一傳送通道(D_L)中之活動	第二傳送通道(D_R)中之活動	總體決策(Decision_Overall)
作用	作用	作用
非作用	作用	作用
作用	非作用	作用
非作用	非作用	非作用

表1

舉例而言，總體決策可例如藉由使用具有預定義大小之磁滯緩衝器判定。使用遲滯緩衝器有助於避免可由作用與非作用部分之間的頻繁切換引起的偽聲。舉例而言，大小為10之磁滯緩衝器可例如在自作用切換至非作用決策之前需要10個訊框。

以下給出用以判定總體決策之實例偽程式碼：使磁滯緩衝器移位一個步驟，例如 buffer_decision[i] = buffer_decision[i+1] 其中i = 0, 1, 2 …. (Buff_size - 1) Buff_decision[buff_size] = Decision_Overall 其中Decision_Overall可例如如表1中所示計算。

總體決策可例如如以下偽程式碼中所概述計算： DTX_Flag = 1; for (i=0; i＜buff_size; i++) { DTX_Flag = DTX_Flag && buffer_decision[i]; }。

在偽程式碼中，DTX_Flag = 1意謂「非作用」，且DTX_FLAG = 0意謂「作用」。

圖8繪示根據實施例之音訊編碼器800。圖8之音訊編碼器可例如實施圖1之音訊編碼器100之特定實施例。詳言之，圖8展示編碼器之方塊圖，該編碼器可例如經組配以接收輸入音訊對象及其相關聯元資料。

此外，音訊編碼器800可例如包含產生降混(傳送通道)之傳送信號產生器(例如，降混器)810(例如，圖7之傳送信號產生器710)，該降混包含來自輸入音訊對象及來自與輸入音訊對象相關聯之經量化方向資訊(例如，方位角及仰角)的至少二個通道。

此外，音訊編碼器800可例如包含語音活動判定器，該語音活動判定器例如實施決策邏輯模組820(例如，圖7之決策邏輯模組720)以用於組合傳送通道之個別VAD決策，以計算關於訊框是否在作用中的總體決策。

可例如使用經量化方向資訊(例如，方位角及仰角)在傳送信號產生器810中自輸入音訊對象計算立體聲降混。

立體聲降混接著經饋送至決策邏輯模組820中，其中關於訊框係在作用中抑或不在作用中之決策可例如基於上述邏輯判定。舉例而言，決策邏輯模組820可例如包含如上所述之個別決策邏輯722及總體決策邏輯725。

若決策邏輯模組820已判定「作用」作為總體決策(針對作用訊框)，則圖8中之編碼器相較於圖4之編碼器提供更高效方法。對於主動降混，立體聲降混之二個通道可例如獨立於傳送通道編碼器以及元資料編碼，如表2中所描述(參見下文)。

相比之下，若決策邏輯模組820已判定「非作用」作為總體決策(針對非作用訊框)，則SID位元速率(例如，4.4 kbps或5.2 kbps)將過低而無法高效傳輸立體聲降混之二個通道以及作用元資料。因此，對於偶爾/間或傳輸之SID訊框，元資料位元速率可例如為1.85 kbps或2.45 kbps，且可例如包含經租略量化之方向資訊(例如，方位角及仰角)以及控制背景雜訊之空間感且自立體聲降混/傳送信號導出之控制參數，該等控制參數係例如比例因子及/或例如相干性或相關性。

在實施例中，在非作用訊框期間，對象索引及功率比之傳輸可能例如不發生。在非作用訊框期間不傳輸對象索引或功率比的主要動機係背景雜訊不具有任何特定方向且本質上係擴散的假定。

此外，音訊編碼器800可例如包含傳送通道靜音插入描述產生器840，該傳送通道靜音插入描述產生器用於在非作用階段中產生單聲道信號之背景雜訊的靜音插入描述。傳送通道SID產生器(傳送通道SID編碼器) 840可例如以2.4 kbps操作且可例如接收單聲道降混作為輸入。

此外，音訊編碼器800可例如包含單聲道信號產生器(例如，立體聲至單聲道轉換器)830，該單聲道信號產生器用於自待在非作用階段中編碼的傳送通道輸出單聲道信號。立體聲降混至單聲道降混之轉換可例如由單聲道信號產生器(例如，立體聲至單聲道轉換器)830進行。

在實施例中，降混(例如，立體聲至單聲道轉換)可例如實施為二個立體聲傳送/降混通道之相加，例如：

在另一實施例中，降混(例如，立體聲至單聲道轉換)可例如實施為立體聲降混之僅一個通道的傳輸。選擇哪一通道之決策可例如取決於立體聲降混之個別通道的(例如，長期)能量。舉例而言，可例如選擇具有較長期能量之通道：其中指示第一(例如，左)通道之長期能量，且指示第二(例如，右)通道之長期能量。

表2描繪可例如在作用及非作用訊框期間傳輸之元資料：

	元資料
作用	- 經量化方向資訊(例如，方位角及仰角) - 指示每時間/頻率塊之主要對象的對象索引 - 每時間/頻率塊之主要對象之間的功率比
非作用	- 經粗略量化之方向資訊(例如，方位角及仰角) - 描述自降混信號/傳送通道/虛擬心形線計算之背景雜訊的空間感的控制參數，例如比例因子及/或例如相干性或相關性

表2

圖8之音訊編碼器800可例如包含擷取方向資訊之方向資訊擷取器802，及用於量化方向資訊之方向資訊量化器804。

此外，音訊編碼器800可例如包含非作用元資料產生器826，該非作用元資料產生器用於產生(例如，計算)待在非作用階段期間傳輸之非作用元資料。

此外，音訊編碼器800可例如包含作用元資料產生器825，該作用元資料產生器用於產生(例如，計算)待在作用階段期間傳輸之作用元資料。

此外，音訊編碼器800可例如包含傳送通道編碼器828，該傳送通道編碼器經組配以藉由對包含處於作用階段中之傳送通道的經降混信號進行編碼來產生經編碼資料。

此外，音訊編碼器800可例如包含位元流產生器，該位元串流產生器可例如實施為多工器850，以用於在作用階段期間將作用元資料與經編碼資料(例如，二個或更多個傳送通道)組合(例如，編碼)成位元流，且用於發送無資料或用於發送靜音插入描述。或者，多工器850可例如經組配以用於在非作用階段期間組合發送靜音插入描述及非作用元資料。

圖9繪示根據實施例之音訊解碼器900。圖9之音訊解碼器900可例如實施圖2之音訊解碼器200的特定實施例。

音訊解碼器900可例如藉由輸入介面接收位元流，該輸入介面可例如經實施為解多工器902。

圖9之音訊解碼器900可例如包含傳送通道解碼器910，該傳送通道解碼器可例如經組配以在作用階段/模式期間根據作用階段期間的位元流重構傳送/降混通道。

此外，音訊解碼器900可例如包含例如經實施為SID解碼器(靜音插入描述符解碼器) 920之雜訊資訊判定器，該SID解碼器可例如經組配以對單聲道信號之靜音插入描述符訊框進行解碼。

此外，音訊解碼器900可例如包含例如經實施為單聲道至立體聲轉換器930之多通道產生器930，該單聲道至立體聲轉換器可例如經組配以在非作用階段/模式期間自單聲道信號之SID資訊且自控制參數產生至少二個(降混)通道。

此外，圖9之音訊解碼器900可例如包含濾波器組分析模組940。

此外，音訊解碼器900可例如包含(空間)呈現器950，該呈現器可例如經組配以在作用階段/模式期間根據非作用階段期間的經解碼傳送/降混通道、例如根據經傳輸作用元資料、例如根據傳送/降混通道中之經重構背景雜訊及例如根據經傳輸非作用元資料重構空間輸出信號。

圖9之音訊解碼器900可例如包含合成模組，該合成模組用於對呈現器950之空間輸出信號進行(例如，頻帶)合成。

圖9之音訊解碼器900可例如進一步包含語音活動資訊判定器905，該語音活動資訊判定器用於例如依據位元流中之VAD資料判定解碼器將以作用或非作用形式(在作用模式中抑或在非作用模式中)操作。

在現描述之作用模式中(在作用形式中)，圖9中描述之解碼器相較於圖5中描述之解碼器更高效。

圖10繪示根據實施例之例如用於共變數呈現之空間呈現器。圖9中所繪示之呈現器950可例如實施為圖10之空間呈現器。

呈現器可例如包含用於依據每時間/頻率塊之傳送/降混通道計算參考功率之信號功率計算單元951。

此外，呈現器可例如包含直接功率計算單元952，該直接功率計算單元用於在作用階段中使用經傳輸功率比，且在非作用階段中使用例如取決於經傳輸對象之數目的恆定比例因子，或例如作為元資料之部分傳輸之比例因子按比例調整參考功率，或例如無比例調整。

此外，呈現器可例如包含直接回應計算單元953，該直接回應計算單元用於依據主要對象在作用階段期間之經量化方向資訊或依據所有經傳輸對象在非作用階段期間之經量化方向資訊計算直接回應。

此外，呈現器可例如包含輸入共變數矩陣計算單元954，該輸入共變數矩陣計算單元用於基於傳送/降混通道計算輸入共變數矩陣。

此外，呈現器可例如包含目標共變數矩陣計算單元955，該目標共變數矩陣計算單元用於依據直接功率計算區塊952之輸出且依據直接回應計算區塊953之輸出(或依據取決於直接回應計算區塊953之輸出的經計算共變數矩陣)計算目標共變數矩陣。

此外，呈現器可例如包含混合矩陣計算單元956，該混合矩陣計算單元用於依據輸入共變數矩陣且依據目標共變數矩陣計算混合矩陣以供呈現。

舉例而言，對於混合矩陣，共變數合成可使用原型矩陣、輸入共變數矩陣及目標共變數矩陣。如參考看圖6所描述。

此外，呈現器可例如包含幅值平移單元957，該幅值平移單元用於依據由混合矩陣計算單元956計算之混合矩陣在傳送通道上進行幅值平移。

圖10中描繪的用於基於共變數合成之呈現的空間呈現器可例如使用作用元資料，例如經量化方向資訊、對象索引及功率比。該共變數呈現因此相較於圖3中所示之共變數呈現更高效。

圖9之傳送通道解碼器910可例如對位元流中之立體聲降混的二個通道進行獨立解碼。立體聲降混可例如接著在作為輸入提供至共變數合成之前饋送至濾波器組分析模組940中。

在現描述之非作用模式中(在非作用模式中)，SID解碼器920及單聲道至立體聲轉換器930可例如採用單聲道通道之經編碼SID資訊產生具有一些空間去相關之立體聲信號。

根據實施例，可例如採用單聲道至立體聲轉換之高效實施方式，其可例如運用不同種子運行二次隨機產生器。在實施例中，所產生雜訊可例如運用單聲道通道之SID資訊進行塑形。由此，產生立體聲信號(相干性為零)。

在另一實施例中，單聲道通道可例如複製至二個立體聲通道(然而，其不足之處在於導致空間崩潰及相干性為一)。

在較佳實施例中，為產生具有類似於輸入立體聲降混之相干性及能量的立體聲信號( ，可例如使用諸如相干性及/或相關性之控制參數及比例因子，該等控制參數及比例因子可例如作為非作用元資料之部分傳輸。其中其中 k為頻率索引， n為樣本索引， c(n)為作為非作用元資料之部分傳輸的相干性或相關性，為自作為非作用元資料之部分傳輸的比例因子 s導出的比例因子，、及為由不同隨機產生器分別運用種子1、種子2及種子3產生的隨機雜訊。

由於非作用元資料不包含功率比及對象索引，因此在直接功率計算期間，可例如使用可例如取決於對象之數目而非功率比之比例因子。或者，可例如使用作為非作用元資料之部分傳輸的比例因子，例如而非功率比。

圖11繪示根據實施例之使用三個隨機種子-種子1、種子2及種子3、導出比例因子及控制參數產生立體聲信號。

此外，圖11繪示隨機產生器，其包含用於產生左通道之隨機產生器單元1及隨機產生器單元3以及用於產生右通道之隨機產生器單元2及另一隨機產生器單元3。

在圖11中，用於產生左通道之隨機產生器單元3及用於產生右通道之隨機產生器單元3接收同一種子-種子3，且因此可例如產生同一隨機雜訊。

圖12繪示根據另一實施例之立體聲信號的產生，其中用於左通道之隨機產生器單元3的所產生雜訊亦用於右通道。換言之，圖12之隨機產生器包含隨機產生器單元1、隨機產生器單元2及僅單一隨機產生器單元3。

在另一實施例中，隨機產生器可例如僅包含單一隨機產生器單元，該單一隨機產生器單元可例如用以回應於分別接收到種子1、種子2及種子3而依序產生隨機雜訊、及。

在其他實施例中，上述概念類似地應用於產生具有多於二個通道的多通道信號。

另外，可例如使用所有對象而非僅主要對象之方向資訊計算直接回應。

實施例允許以高效方式運用具有元資料之獨立串流(ISM)將DTX擴展至空間音訊寫碼。空間音訊寫碼甚至對於非作用訊框亦可維持關於背景雜訊之高感知保真度，對此，可為節省通信頻寬而中斷傳輸。

通道數目大於一的解碼器側傳送通道可例如僅由舒適雜訊產生器(CNG)自傳送單聲道信號產生，使得其根據SID資訊展現空間影像。所產生傳送通道可例如接著連同自所有音訊對象之方向資訊計算的直接回應、相等功率比及原型矩陣一起饋送至共變數合成模組中，以用於呈現為所需輸出佈局。

儘管已在設備之上下文中描述一些態樣，但顯然，此等態樣亦表示對應方法之描述，其中區塊或裝置對應於方法步驟或方法步驟之形貌體。類似地，方法步驟之上下文中所描述之態樣亦表示對應設備之對應區塊或項目或形貌體的描述。可由(或使用)硬體設備(如(例如)微處理器、可規劃電腦或電子電路)來執行方法步驟中之一些或全部。在一些實施例中，可由此類設備執行最重要之方法步驟中之一或多者。

視某些實施要求而定，本發明之實施例可以硬體或軟體，或至少部分以硬體或至少部分以軟體實施。可使用其上儲存有與可規劃電腦系統協作(或能夠協作)之電子可讀控制信號的數位儲存媒體，例如軟碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體執行實施方式，使得執行各別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，該資料載體能夠與可規劃電腦系統協作，使得執行本文中所描述之方法中的一者。

大體而言，本發明之實施例可實施為具有程式碼之電腦程式產品，當電腦程式產品在電腦上運行時，程式碼操作性地用於執行方法中之一者。程式碼可例如儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上用於執行本文中所描述之方法中之一者的電腦程式。

換言之，因此，本發明方法之實施例為具有程式碼之電腦程式，當電腦程式在電腦上運行時，該程式碼用於執行本文中所描述之方法中的一者。

因此，本發明方法之另一實施例為包含記錄於其上的，用於執行本文中所描述之方法中的一者的電腦程式之資料載體(或數位儲存媒體，或電腦可讀媒體)。資料載體、數位儲存媒體或所記錄的媒體通常為有形及/或非暫時性的。

因此，本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料串流或信號序列可例如經組配以經由資料通信連接，例如經由網際網路而傳送。

另一實施例包含處理構件，例如經組配或經調適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯裝置。

另一實施例包含電腦，該電腦上安裝有用於執行本文中所描述之方法中之一者的電腦程式。

根據本發明之另一實施例包含經組配以(例如，電子地或光學地)傳送用於執行本文中所描述之方法中之一者的電腦程式至接收器的設備或系統。舉例而言，接收器可為電腦、行動裝置、記憶體裝置或其類似者。設備或系統可例如包含用於傳送電腦程式至接收器之檔案伺服器。

在一些實施例中，可規劃邏輯裝置(例如，場可規劃閘陣列)可用以執行本文中所描述之方法的功能中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器協作，以便執行本文中所描述之方法中的一者。一般而言，方法較佳地由任何硬體設備執行。

本文中所描述之設備可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來實施。

本文中所描述之方法可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來執行。

上文所描述實施例僅繪示本發明之原理。應理解，對本文中所描述之配置及細節的修改及變化對熟習此項技術者將顯而易見。因此，其僅意欲由接下來之申請專利範圍之範疇限制，而非由藉由本文中實施例之描述及解釋所呈現的特定細節限制。

參照案 [1] WO 2022/079049 A2, A. “Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects”. [2] WO 2022/079044 A1 “Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis”. [3] 3GPP TS 26.194; Voice Activity Detector (VAD); - 3GPP technical specification Retrieved on 2009-06-17. [4] 3GPP TS 26.449, "Codec for Enhanced Voice Services (EVS); Comfort Noise Generation (CNG) Aspects". [5] 3GPP TS 26.450, "Codec for Enhanced Voice Services (EVS); Discontinuous Transmission (DTX)". [6] A. Lombard, S. Wilde, E. Ravelli, S. Döhla, G. Fuchs and M. Dietz, "Frequency-domain Comfort Noise Generation for Discontinuous Transmission in EVS," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5893-5897, doi: 10.1109/ICASSP.2015.7179102. [7] WO 2022/022876 A1 ”Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene”.

100,800:音訊編碼器 110,710,810:傳送信號產生器 120:語音活動判定器 130:位元流產生器 200,900:音訊解碼器 210:輸入介面 220,950:呈現器 490:經編碼位元流 491:經編碼音訊信號/經編碼立體聲降混/傳送通道 495:經編碼參數旁側資訊/經編碼對象索引 496:經編碼參數旁側資訊/經編碼功率比 497:經編碼參數旁側資訊/經編碼方向資訊 720,820:決策邏輯模組 722:個別決策邏輯 725:總體決策邏輯 802:方向資訊判定器/方向資訊擷取器 804:方向資訊量化器 825:作用元資料產生器 826:非作用元資料產生器 828:傳送通道編碼器 830:單聲道信號產生器 840:傳送通道靜音插入描述產生器 850:多工器 902:解多工器 905:語音活動資訊判定器 910:傳送通道解碼器 920:雜訊資訊判定器/SID解碼器 930:多通道產生器/單聲道至立體聲轉換器 940:濾波器組分析模組 951:信號功率計算單元 952:直接功率計算單元/直接功率計算區塊 953:直接回應計算單元/直接回應計算區塊 954:輸入共變數矩陣計算單元 955:目標共變數矩陣計算單元 956:混合矩陣計算單元 957:幅值平移單元

在下文中，參考諸圖更詳細地描述本發明之實施例，在該等圖式中：圖1繪示根據實施例之音訊編碼器。圖2繪示根據實施例之音訊解碼器。圖3繪示根據實施例之系統。圖4繪示Param-ISM編碼器之概述。圖5繪示Param-ISM解碼器之概述。圖6繪示Param-ISM中之共變數合成步驟之詳細概述，而不反映輸入/輸出資料之維度。圖7繪示根據實施例之用於判定訊框係在作用中抑或不在作用中的方塊圖。圖8繪示根據實施例之編碼器的方塊圖。圖9繪示根據實施例之解碼器的方塊圖。圖10繪示根據實施例之空間呈現器。圖11繪示根據實施例之使用三個隨機種子-種子1、種子2及種子3、導出比例因子及控制參數產生立體聲信號。圖12繪示根據另一實施例之立體聲信號的產生，其中來自用於左通道之第三隨機產生器的所產生雜訊亦用於產生右通道。

110:傳送信號產生器

120:語音活動判定器

130:位元流產生器

Claims

一種音訊編碼器(100；800)，其包含：一傳送信號產生器(110；710；810)，其用於自音訊輸入產生一傳送信號之二個或更多個傳送通道，該音訊輸入包含多個音訊輸入對象及多個音訊輸入通道中之至少一者，一語音活動判定器(120；820)，其用於判定該傳送信號之一語音活動決策，該語音活動決策指示該傳送信號內之該音訊輸入是否展現語音活動，以及一位元流產生器(130；850)，其用於依據該音訊輸入產生一位元流，其中，若該語音活動判定器(120；820)已判定該傳送信號展現語音活動，則該位元流產生器(130；850)適應於將該等二個或更多個傳送通道編碼於該位元流內，其中，若該語音活動判定器(120；820)已判定該傳送信號未展現語音活動，則該位元流產生器(130；850)適合於對關於一背景雜訊之資訊而非該等二個或更多個傳送通道進行編碼，其中關於該背景雜訊之該資訊包含關於該等二個或更多個傳送通道中之至少一者的一背景雜訊之資訊或關於一導出信號之一背景雜訊的資訊，該導出信號取決於該等二個或更多個傳送通道中之至少一者。
如請求項1之音訊編碼器(100；800)，其中該語音活動判定器(120；820)經組配以判定該傳送信號之一或多個傳送通道中之各傳送通道的一個別語音活動決策，該個別語音活動決策指示該傳送通道內之該音訊輸入是否展現語音活動，並且其中該語音活動判定器(120；820)經組配以依據該一或多個傳送通道中之各傳送通道的該個別語音活動決策判定該傳送信號之該語音活動決策。
如請求項2之音訊編碼器(100；800)，其中該語音活動判定器(120；820)經組配以判定該傳送信號之該等二個或更多個傳送通道中之各傳送通道的一個別語音活動決策，該個別語音活動決策指示該傳送通道內之該音訊輸入是否展現語音活動，並且其中該語音活動判定器(120；820)經組配以依據該傳送信號之該等二個或更多個傳送通道中之各傳送通道的該個別語音活動決策判定該傳送信號之該語音活動決策。
如請求項3之音訊編碼器(100；800)，其中該語音活動判定器(120；820)經組配以在該傳送信號之該等二個或更多個傳送通道中之至少一者展現語音活動的情況下判定該傳送信號展現語音活動，並且其中該語音活動判定器(120；820)經組配以在該傳送信號之該等二個或更多個傳送通道中無一者展現語音活動的情況下判定該傳送信號未展現語音活動。
如前述請求項中任一項之音訊編碼器(100；800)，其中該音訊編碼器(100；800)經組配以在該語音活動判定器(120；820)已判定該傳送信號未展現語音活動的情況下，判定是否傳輸已在其中編碼關於該背景雜訊之該資訊的該位元流，或是否不產生及不傳輸該位元流。
如前述請求項中任一項之音訊編碼器(100；800)，其中該音訊編碼器(100；800)包含一單聲道信號產生器(830)，該單聲道信號產生器用於在該語音活動判定器(120；820)已判定該傳送信號未展現語音活動的情況下產生該導出信號，作為來自該等二個或更多個傳送通道中之至少一者的一單聲道信號，並且其中該音訊編碼器(100；800)包含一資訊產生器，該資訊產生器用於產生關於該背景雜訊之該資訊作為關於該單聲道信號之該背景雜訊的資訊。
如請求項6之音訊編碼器(100；800)，其中該單聲道信號產生器(830)經組配以藉由添加該等二個或更多個傳送通道或藉由添加自該等二個或更多個傳送通道導出之二個或更多個通道而產生該單聲道信號，或其中該單聲道信號產生器(830)經組配以藉由選擇該等二個或更多個傳送通道中展現一較高能量之傳送通道而產生該單聲道信號。
如請求項6或7之音訊編碼器(100；800)，其中該資訊產生器經組配以產生關於該單聲道信號之一背景雜訊的該資訊作為關於該單聲道信號之該資訊。
如請求項8之音訊編碼器(100；800)，其中該資訊產生器經組配以產生該單聲道信號之該背景雜訊之一靜音插入描述作為關於該單聲道信號之該背景雜訊的該資訊。
如前述請求項中任一項之音訊編碼器(100；800)，其中該音訊編碼器(100；800)包含用於依據該音訊輸入判定方向資訊之一方向資訊判定器(802)，其中該音訊編碼器(100；800)包含用於量化該方向資訊以獲得經量化方向資訊之一方向資訊量化器(804)，並且其中該位元流產生器(130；850)經組配以將該經量化方向資訊編碼於該位元流內。
如請求項10之音訊編碼器(100；800)，其中該傳送信號產生器(110；710；810)經組配以使用該方向資訊自該音訊輸入產生該傳送信號之該等二個或更多個傳送通道。
如請求項10或11之音訊編碼器(100；800)，其中該音訊輸入包含該等多個音訊輸入對象，其中該方向資訊包含關於該音訊輸入之該等多個音訊輸入對象中之一音訊輸入對象的一方位角及一仰角的資訊。
如前述請求項中任一項之音訊編碼器(100；800)，其中該音訊編碼器(100；800)包含一作用元資料產生器(825)，該作用元資料產生器用於在該語音活動判定器(120；820)已判定該傳送信號展現語音活動的情況下產生元資料，該元資料包含該音訊輸入之該等多個音訊輸入對象及或該等多個音訊輸入通道之經量化方向資訊、對象索引及功率比中之至少一者。
如前述請求項中任一項之音訊編碼器(100；800)，其中該音訊輸入包含該等多個音訊輸入對象，並且其中該音訊編碼器(100；800)包含一非作用元資料產生器(826)，該非作用元資料產生器用於在該語音活動判定器(120；820)已判定該傳送信號未展現語音活動的情況下產生元資料，該元資料包含經量化方向資訊及控制參數，例如包含一比例因子及/或一相干性或一相關性。
如請求項13且如請求項14之音訊編碼器(100；800)，其中由該非作用元資料產生器(826)產生之該方向資訊在一量化解析度方面不同於由該作用元資料產生器(825)產生之該元資料。
如請求項14或15之音訊編碼器(100；800)，其進一步取決於請求項13，其中該非作用元資料產生器(826)經組配以產生該等控制參數，使得該等控制參數之特性不同於由該作用元資料產生器(825)產生的功率比及對象索引之一特性，例如其中該等控制參數包含例如該比例因子及/或例如該相干性或該相關性。
如前述請求項中任一項之音訊編碼器(100；800)，其中該音訊輸入包含多個音訊輸入對象及與該等音訊輸入對象相關聯之元資料。
如前述請求項中任一項之音訊編碼器(100；800)，其中該傳送信號產生器(110；710；810)經組配以自該音訊輸入產生該傳送信號之該等二個或更多個傳送通道，包含藉由對多個音訊輸入對象及多個音訊輸入通道中之至少一者進行降混以獲得一降混作為該傳送信號，其包含二個或更多個降混通道作為該等二個或更多個傳送通道。
如請求項10至13中任一項且如請求項18之音訊編碼器(100；800)，其中，若該傳送信號內之該音訊輸入未展現語音活動，則該方向資訊量化器(804)經組配以判定該經量化方向資訊，使得該經量化方向資訊之一量化解析度不同於用於計算該降混之一量化解析度。
如前述請求項中任一項之音訊編碼器(100；800)，其進一步取決於請求項14，其中該位元流產生器(130；850)經組配以在該語音活動判定器(120；820)已判定該傳送信號未展現語音活動的情況下將該等控制參數編碼於該位元流內，其中該等控制參數適合於控制自隨機雜訊產生一中間信號，其中該等控制參數包含多個子頻帶之多個參數值，或其中該等控制參數係單一寬頻帶控制參數。
如請求項20之音訊編碼器(100；800)，其中該音訊編碼器(100；800)經組配以藉由依據一可用位元速率選擇該等控制參數是否包含該等多個子頻帶之該等多個參數值，或該等控制參數是否係該等單一寬頻帶控制參數而產生該等控制參數。
如前述請求項中任一項之音訊編碼器(100；800)，其中該傳送信號產生器(110；710；810)經組配以藉由應用碼激勵線性預測或藉由應用一修改型離散餘弦轉換或藉由應用該碼激勵線性預測與該修改型離散餘弦轉換之一組合對該音訊輸入進行編碼。
如前述請求項中任一項之音訊編碼器(100；800)，其中，若該音訊輸入包含該等多個音訊輸入通道而非該等多個音訊輸入對象，則該等二個或更多個傳送通道之一數目小於該等多個音訊輸入通道之一數目，其中，若該音訊輸入包含該等多個音訊輸入對象而非該等多個音訊輸入通道，則該等二個或更多個傳送通道之該數目小於該等多個音訊輸入對象之一數目，其中，若該音訊輸入包含該等多個音訊輸入對象及該等多個音訊輸入通道二者，則該等二個或更多個傳送通道之該數目小於該等多個音訊輸入通道之該數目與該等多個音訊輸入對象之該數目的一總和；或其中，若該音訊輸入包含該等多個音訊輸入通道而非該等多個音訊輸入對象，則該等二個或更多個傳送通道之一數目小於或等於該等多個音訊輸入通道之一數目，其中，若該音訊輸入包含該等多個音訊輸入對象而非該等多個音訊輸入通道，則該等二個或更多個傳送通道之該數目小於或等於該等多個音訊輸入對象之一數目，其中，若該音訊輸入包含該等多個音訊輸入對象及該等多個音訊輸入通道二者，則該等二個或更多個傳送通道之該數目小於或等於該等多個音訊輸入通道之該數目與該等多個音訊輸入對象之該數目的一總和。
一種系統，其包含：如前述請求項中任一項之一音訊編碼器(100；800)，以及一音訊解碼器(200；900)，其中該音訊解碼器(200；900)包含：一輸入介面(210；902)，其用於接收一位元流，該位元流取決於包含多個音訊對象及多個音訊通道中之至少一者的音訊內容；其中包含二個或更多個傳送通道之一傳送信號係編碼於該位元流內，且該音訊內容係編碼於該傳送信號內；或其中關於一背景雜訊之資訊係編碼於該位元流而非該傳送信號內，其中關於該背景雜訊之該資訊包含關於該等二個或更多個傳送通道中之至少一者的一背景雜訊之資訊或關於一導出信號之一背景雜訊的資訊，該導出信號取決於該等二個或更多個傳送通道中之至少一者；以及一呈現器(220；950)，其用於依據編碼有該位元流之該音訊內容產生一或多個音訊輸出信號；其中，若包含該等二個或更多個傳送通道之該傳送信號係編碼於該位元流內，則該呈現器(220；950)經組配以依據該等二個或更多個傳送通道產生該一或多個音訊輸出信號，並且其中，若關於該背景雜訊之該資訊係編碼於該位元流而非該傳送信號內，則該呈現器(220；950)經組配以依據關於該背景雜訊之該資訊產生該一或多個音訊輸出信號，其中該音訊編碼器(100；800)經組配以自音訊輸入產生一位元流，並且其中該音訊解碼器(200；900)經組配以自該位元流產生一或多個音訊輸出信號。
一種用於音訊編碼之方法，其中該方法包含：自音訊輸入產生一傳送信號之二個或更多個傳送通道，該音訊輸入包含多個音訊輸入對象及多個音訊輸入通道中之至少一者，判定該傳送信號之一語音活動決策，該語音活動決策指示該傳送信號內之該音訊輸入是否展現語音活動，以及依據該音訊輸入判定一位元流，其中，若已判定該傳送信號展現語音活動，則該方法包含將該等二個或更多個傳送通道編碼於該位元流內，其中，若已判定該傳送信號未展現語音活動，則該方法包含對關於該等二個或更多個傳送通道中之至少一者的一背景雜訊之資訊或關於一導出信號之一背景雜訊的資訊，而非該等二個或更多個傳送通道進行編碼，該導出信號取決於該等二個或更多個傳送通道中之至少一者。
一種電腦程式，其用於在執行於一電腦或信號處理器上時實施如請求項25之方法。