TW202248995A - 一種音訊編碼、解碼方法及裝置 - Google Patents

一種音訊編碼、解碼方法及裝置 Download PDF

Info

Publication number
TW202248995A
TW202248995A TW111114429A TW111114429A TW202248995A TW 202248995 A TW202248995 A TW 202248995A TW 111114429 A TW111114429 A TW 111114429A TW 111114429 A TW111114429 A TW 111114429A TW 202248995 A TW202248995 A TW 202248995A
Authority
TW
Taiwan
Prior art keywords
virtual speaker
target virtual
encoding
encoding parameter
channel signal
Prior art date
Application number
TW111114429A
Other languages
English (en)
Inventor
劉帥
高原
王賓
夏丙寅
王喆
Original Assignee
大陸商華為技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商華為技術有限公司 filed Critical 大陸商華為技術有限公司
Publication of TW202248995A publication Critical patent/TW202248995A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申請提供一種音訊編碼、解碼方法及裝置,用以解決計算複雜度高的問題。在對當前幀的音訊通道訊號編碼時,先確定第一目標虛擬揚聲器與當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器是否滿足設定條件,在滿足時,根據前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,從而根據第一編碼參數對當前幀的音訊通道訊號進行編碼獲得編碼結果並將編碼結果寫入碼流,並將第一編碼參數或者用於指示根據前一幀的編碼參數確定當前幀的編碼參數的複用標識,從而不需要再重新計算當前幀的編碼參數,可以提高編碼效率。

Description

一種音訊編碼、解碼方法及裝置
本申請實施例涉及編解碼技術領域,尤其涉及一種音訊編碼、解碼方法及裝置。
三維音訊技術是對真實世界中的聲音事件和三維聲場資訊進行獲得、處理、傳輸和渲染重播的音訊技術。三維音訊技術使聲音具有強烈的空間感、包圍感及沉浸感,給人以“聲臨其境”的非凡聽覺體驗。高階立體混響(higher order ambisonics,HOA) 技術具有在錄製、編碼與重播階段與揚聲器佈局無關的性質和HOA格式資料的可旋轉重播特性,在進行三維音訊重播時具有更高的靈活性,因而也獲得了更為廣泛的關注和研究。
為了實現更好的音訊聽覺效果,HOA 技術需要大量的資料量用於記錄更詳細的聲音場景的資訊。雖然這種根據場景的三維音訊訊號採樣和儲存更加利於音訊訊號空間資訊的保存和傳輸,但隨著HOA階數的增加,資料量也會增加,大量的資料造成傳輸和儲存的困難,因此需要對HOA訊號進行編解碼。
待編碼的HOA訊號通過編碼產生虛擬揚聲器訊號和殘差訊號,然後進一步對虛擬揚聲器訊號和殘差訊號進行編碼後獲得碼流。通常情況下,在針對虛擬揚聲器訊號和殘差訊號進行編碼時,針對每一幀的虛擬揚聲器訊號和殘差訊號進行編解碼處理。但是只考慮了當前幀的訊號間的相關性,對每一幀的虛擬揚聲器訊號和殘差訊號編碼,導致計算複雜度較高,編碼效率較低。
本申請實施例提供一種音訊編碼、解碼方法及裝置,用以解決計算複雜度高的問題。
第一方面,本申請實施例提供一種音訊編碼方法,包括:獲得當前幀的音訊通道訊號,所述當前幀的音訊通道訊號是通過第一目標虛擬揚聲器對原始高階立體混響HOA訊號進行空間映射獲得的;在確定所述第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件時,根據所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定所述當前幀的音訊通道訊號的第一編碼參數,所述前一幀的音訊通道訊號與所述第二目標虛擬揚聲器對應;根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼;將所述當前幀的音訊通道訊號的編碼結果寫入碼流。通過上述方法,在當前幀進行編碼時,如果與前一幀匹配的虛擬揚聲器之間的鄰近時,可以根據前一幀的編碼參數確定當前幀的編碼參數,從而不需要再重新計算當前幀的編碼參數,可以提高編碼效率。
在一種可能的設計中,所述方法還包括:將所述第一編碼參數寫入碼流。上述設計中,將根據前一幀的編碼參數確定的編碼參數作為當前幀的編碼參數寫入碼流,實現對端獲得編碼參數的同時,提高編碼效率。
在一種可能的設計中,所述第一編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
在一種可能的設計中,所述通道間聽覺空間參數包括通道間聲級差ILD、通道間時間差ITD或者通道間相位差IPD中的一項或者多項。
在一種可能的設計中,所述設定條件包括所述第一空間位置與所述第二空間位置重疊;所述根據所述前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,包括:將所述前一幀的音訊通道訊號的第二編碼參數作為所述當前幀的音訊通道訊號的第一編碼參數。通過上述設計,在前一幀的目標虛擬揚聲器的空間位置與當前幀的目標虛擬揚聲器的空間位置重疊時,複用前一幀的編碼參數作為當前幀的編碼參數,考慮到音訊通道訊號之間的幀間空間相關性,無需再計算當前幀的編碼參數,可以提高編碼效率。
在一種可能的設計中,所述方法還包括:將複用標識寫入碼流,所述複用標識的取值為第一值,所述第一值指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。上述設計中,通過將複用標識寫入碼流,來通知解碼側確定當前幀的編碼參數的方式,簡單且有效。
在一種可能的設計中,所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標,所述第一空間位置與所述第二空間位置重疊包括所述第一座標與所述第二座標相同;或所述第一空間位置包括所述第一目標虛擬揚聲器的第一序號,所述第二空間位置包括所述第二目標虛擬揚聲器的第二序號,所述第一空間位置與所述第二空間位置重疊包括所述第一序號與所述第二序號相同;或所述第一空間位置包括所述第一目標虛擬揚聲器的第一HOA係數,所述第二空間位置包括所述第二目標虛擬揚聲器的第二HOA係數,所述第一空間位置與所述第二空間位置重疊包括所述第一HOA係數與所述第二HOA係數相同。上述設計中,通過座標、序號或者HOA係數來表徵空間位置,用於確定前一幀的虛擬揚聲器與當前幀的虛擬揚聲器是否重疊,簡單且有效。
在一種可能的設計中,所述第一目標虛擬揚聲器包括M個虛擬揚聲器,所述第二目標虛擬揚聲器包括N個虛擬揚聲器;所述設定條件包括所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置不重疊且所述第一目標虛擬揚聲器包括的第m個虛擬揚聲器位於以所述第二目標虛擬揚聲器包括的第n個虛擬揚聲器為中心的設定範圍內,其中,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數;所述根據所述前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,包括:按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。上述設計中,在前一幀的目標虛擬揚聲器的空間位置與當前幀的目標虛擬揚聲器的空間位置不重疊但鄰近時,通過前一幀的編碼參數調整當前幀的編碼參數,考慮到音訊通道訊號之間的幀間空間相關性,無需再通過複雜的計算方式來計算當前幀的編碼參數,可以提高編碼效率。
其中,本發明實施例中,第一編碼參數可以是一個編碼參數也可以是多個編碼參數,所述的調整可以是縮小,或者放大,或者部分縮小且另一部分不變,或者部分放大且另一部分不變,或者部分縮小且另一部分放大,或者部分縮小,部分不變且部分放大。
在一種可能的設計中,當所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標時,所述第m個虛擬揚聲器是否位於以所述第n個虛擬揚聲器為中心的設定範圍內通過所述第m個虛擬揚聲器與所述第n個虛擬揚聲器之間的相關度確定,其中,所述相關度滿足如下條件:
Figure 02_image001
其中,R表示相關度,
Figure 02_image003
表示歸一化運算,
Figure 02_image005
為當前幀的第一目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣,
Figure 02_image007
為前一幀的第二目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣的轉置;當所述相關度大於設定值時,所述第m個虛擬揚聲器位於以所述第n個虛擬揚聲器為中心的設定範圍內。上述設計提供一種簡單且有效的確定前一幀的虛擬揚聲器與當前幀的虛擬揚聲器的鄰近關係。
在一種可能的設計中,所述方法還包括:將複用標識寫入碼流,所述複用標識的取值為第二值,所述第二值指示所述當前幀的音訊通道訊號的第一編碼參數通過按照設定比例調整所述第二編碼參數獲得。
在一種可能的設計中,所述方法還包括:將所述設定比例寫入所述碼流。通過上述設計,將設定比例通過碼流通知到解碼側,從而解碼側根據設定比例確定當前幀的編碼參數,使得解碼側獲得編碼參數的同時,提高編碼效率。
第二方面,本申請實施例提供了一種音訊解碼方法,包括:從碼流中解析複用標識,所述複用標識指示當前幀的音訊通道訊號的第一編碼參數通過所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定;根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數;根據所述第一編碼參數從所述碼流中解碼所述當前幀的音訊通道訊號。通過上述設計,解碼側無需在從碼流解析編碼參數,可以提高解碼效率。
在一種可能的設計中,根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數,包括:當所述複用標識的取值為第一值時,所述第一值指示所述第一編碼參數複用所述第二編碼參數,獲得所述第二編碼參數作為所述第一編碼參數。通過上述設計,無需從碼流中解碼各個編碼參數,僅需解碼複用標識,可以提高解碼效率。
在一種可能的設計中,根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數,包括:當所述複用標識的取值為第二值時,所述第二值指示所述第一編碼參數通過按照設定比例調整所述第二編碼參數獲得,按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
在一種可能的設計中,所述方法還包括:當所述複用標識的取值為第二值時,從所述碼流中解碼獲得所述設定比例。
在一種可能的設計中,所述音訊通道訊號的編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
第三方面,本申請實施例提供一種音訊編碼裝置,有益效果可以參見第一方面的相關描述,此處不再贅述。音訊編碼裝置包括用於實施第一方面的任意一種方法的若干個功能單元。舉例來說,音訊編碼裝置可以包括空間編碼單元,用於獲得當前幀的音訊通道訊號,所述當前幀的音訊通道訊號是通過第一目標虛擬揚聲器對原始高階立體混響HOA訊號進行空間映射獲得的;核心編碼單元,用於在確定所述第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件時,根據所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,所述前一幀的音訊通道訊號與所述第二目標虛擬揚聲器對應;根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼,並將所述當前幀的音訊通道訊號的編碼結果寫入碼流。
在一種可能的設計中,所述核心編碼單元,還用於將所述第一編碼參數寫入碼流。
在一種可能的設計中,所述第一編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
在一種可能的設計中,所述設定條件包括所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置重疊;所述核心編碼單元,具體用於將所述前一幀的音訊通道訊號的第二編碼參數作為所述當前幀的音訊通道訊號的第一編碼參數。
在一種可能的設計中,所述核心編碼單元,還用於將複用標識寫入碼流,所述複用標識的取值為第一值,所述第一值指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。
在一種可能的設計中,所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標,所述第一空間位置與所述第二空間位置重疊包括所述第一座標與所述第二座標相同;或所述第一空間位置包括所述第一目標虛擬揚聲器的第一序號,所述第二空間位置包括所述第二目標虛擬揚聲器的第二序號,所述第一空間位置與所述第二空間位置重疊包括所述第一序號與所述第二序號相同;或所述第一空間位置包括所述第一目標虛擬揚聲器的第一HOA係數,所述第二空間位置包括所述第二目標虛擬揚聲器的第二HOA係數,所述第一空間位置與所述第二空間位置重疊包括所述第一HOA係數與所述第二HOA係數相同。
在一種可能的設計中,所述第一目標虛擬揚聲器包括M個虛擬揚聲器,所述第二目標虛擬揚聲器包括N個虛擬揚聲器;所述設定條件包括所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置不重疊且所述第一目標虛擬揚聲器包括的第m個虛擬揚聲器位於以所述第二目標虛擬揚聲器包括的第n個虛擬揚聲器為中心的設定範圍內,其中,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數;所述核心編碼單元,具體用於按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
在一種可能的設計中,當所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標時,所述第m個虛擬揚聲器是否位於以所述第n個虛擬揚聲器為中心的設定範圍內通過所述第m個虛擬揚聲器與所述第n個虛擬揚聲器之間的相關度確定,其中,所述相關度滿足如下條件:
Figure 02_image001
其中,R表示相關度,
Figure 02_image003
表示歸一化運算,
Figure 02_image005
為當前幀的第一目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣,
Figure 02_image007
為前一幀的第二目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣的轉置;
當所述相關度大於設定值時,所述第m個虛擬揚聲器位於以所述第n個虛擬揚聲器為中心的設定範圍內。
在一種可能的設計中,所述核心編碼單元,還用於將複用標識寫入碼流,所述複用標識的取值為第二值,所述第二值指示所述當前幀的音訊通道訊號的第一編碼參數通過按照設定比例調整所述第二編碼參數獲得。
在一種可能的設計中,所述核心編碼單元,還用於將所述設定比例寫入所述碼流。
第四方面,本申請實施例提供一種音訊解碼裝置,有益效果可以參見第二方面的相關描述,此處不再贅述。音訊解碼裝置包括用於實施第三方面的任意一種方法的若干個功能單元。舉例來說,音訊解碼裝置可以包括:核心解碼單元,用於從碼流中解析複用標識,所述複用標識指示當前幀的音訊通道訊號的第一編碼參數通過所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定;根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數;根據所述第一編碼參數從所述碼流中解碼所述當前幀的音訊通道訊號;空間解碼單元,用於對所述音訊通道訊號進行空間解碼獲得高階立體混響HOA訊號。
在一種可能的設計中,所述核心解碼單元,具體用於當所述複用標識的取值為第一值時,所述第一值指示所述第一編碼參數複用所述第二編碼參數,獲得所述第二編碼參數作為所述第一編碼參數。
在一種可能的設計中,所述核心解碼單元,具體用於當所述複用標識的取值為第二值時,所述第二值指示所述第一編碼參數通過按照設定比例調整所述第二編碼參數獲得,按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
在一種可能的設計中,所述核心解碼單元,具體用於當所述複用標識的取值為第二值時,從所述碼流中解碼獲得所述設定比例。
在一種可能的設計中,所述音訊通道訊號的編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
第五方面,本申請實施例提供一種音訊編碼器,所述視訊轉碼器用於編碼HOA訊號。示例性的,音訊編碼器可以實現第一方面所述的方法。音訊編碼器可以包括第三方面中任一設計所述的裝置。
第六方面,本申請實施例提供一種音訊解碼器,所述視頻解碼器用於從碼流中解碼HOA訊號。示例性的,音訊解碼器可以實現第二方面的任一種設計所述的方法。音訊解碼器包括第四方面的任一設計所述的裝置。
第七方面,本申請實施例提供一種音訊編碼設備,包括:相互耦合的非易失性記憶體和處理器,所述處理器調用儲存在所述記憶體中的程式碼以執行第一方面或者第一方面的任一設計所述的方法。
第八方面,本申請實施例提供一種音訊解碼設備,包括:相互耦合的非易失性記憶體和處理器,所述處理器調用儲存在所述記憶體中的程式碼以執行第二方面或者第二方面的任一設計所述的方法。
第九方面,本申請實施例提供一種電腦可讀儲存介質,所述電腦可讀儲存介質儲存了程式碼,其中,所述程式碼包括用於執行第一方面至第二方面的任意一種方法的部分或全部步驟的指令。
第十方面,本申請實施例提供一種電腦程式產品,當所述電腦程式產品在電腦上運行時,使得所述電腦執行第一方面至第二方面的任意一種方法的部分或全部步驟。
第十一方面,本申請實施例提供一種電腦可讀儲存介質,包括第一方面的任意一種方法所獲得的碼流。
應當理解的是,本申請的第三至十方面的有益效果可以參見第一方面和第二方面的相關描述,不再贅述。
下面結合本申請實施例中的附圖對本申請實施例進行描述。以下描述中,參考形成本公開一部分並以說明之方式示出本申請實施例的具體方面或可使用本申請實施例的具體方面的附圖。應理解,本申請實施例可在其它方面中使用,並可包括附圖中未描繪的結構或邏輯變化。因此,以下詳細描述不應以限制性的意義來理解,且本申請的範圍由所附請求項書界定。例如,應理解,結合所描述方法的揭示內容可以同樣適用於執行所述方法的對應設備或系統,且反之亦然。例如,如果描述一個或多個具體方法步驟,則對應的設備可以包含如功能單元等一個或多個單元,來執行所描述的一個或多個方法步驟(例如,一個單元執行一個或多個步驟,或多個單元,其中每個都執行多個步驟中的一個或多個),即使附圖中未明確描述或說明這種一個或多個單元。另一方面,例如,如果根據如功能單元等一個或多個單元描述具體裝置,則對應的方法可以包含一個步驟來執行一個或多個單元的功能性(例如,一個步驟執行一個或多個單元的功能性,或多個步驟,其中每個執行多個單元中一個或多個單元的功能性),即使附圖中未明確描述或說明這種一個或多個步驟。進一步,應理解的是,除非另外明確提出,本文中所描述的各示例性實施例和/或方面的特徵可以相互組合。
本文所提及的“第一”、“第二”以及類似的詞語並不表示任何順序、數量或者重要性,而只是用來區分不同的組成部分。同樣,“一個”或者“一”等類似詞語也不表示數量限制,而是表示存在至少一個。“連接”或者“相連”等類似的詞語並非限定於物理的或者機械的連接,而是可以包括電性的連接,不管是直接的還是間接的。
在本文中提及的“多個”是指兩個或兩個以上。“和/或”,描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。字元“/”一般表示前後關聯物件是一種“或”的關係。
下面描述本申請實施例所應用的系統架構。參見圖1A所示,圖1A示例性地給出了本申請實施例所應用的音訊編碼及解碼系統100的示意性框圖。如圖1A所示,音訊編碼及解碼系統100可以包括音訊編碼元件110和音訊解碼元件120。音訊編碼元件110用於對HOA訊號(或者3D音訊訊號)進行音訊編碼。可選地,音訊編碼元件110可以通過軟體實現,或者也可以通過硬體實現,或者還可以通過軟硬體結合的形式實現,本申請實施例對此不作具體限定。
參見圖1B所示,音訊編碼元件110 對HOA訊號(或者3D音訊訊號)進行編碼可以包括如下幾個步驟:
1)對獲得到的HOA訊號進行音訊預處理(audio preprocessing)。預處理可以包括濾除掉HOA訊號中的低頻部分,比如,以20Hz或者50Hz為分界點,提取HOA訊號中的方位資訊。
HOA訊號可以由音訊採集元件採集到並發送至音訊編碼元件110。可選地,音訊採集元件可以與音訊編碼元件110設置於同一設備中;或者,也可以與音訊編碼元件110設置於不同設備中。
2)對音訊預處理後的訊號進行編碼處理(Audio encoding)打包(File/Segment encapsulation)獲得碼流。
3)音訊編碼元件110通過傳輸通道將碼流發送 (Delivery)到解碼端的音訊解碼組件120。
音訊解碼元件120用於對音訊編碼元件110生成的碼流進行解碼獲得HOA訊號。
可選地,音訊編碼元件110與音訊解碼元件120之間可以通過有線或者無線的方式相連。音訊解碼元件120通過該連接獲得音訊編碼元件110生成的碼流;或者,音訊編碼元件110將生成的碼流儲存至記憶體,音訊解碼組件120讀取記憶體中的碼流。可選地,音訊解碼元件120可以通過軟體實現;或者,也可以通過硬體實現;或者,還可以通過軟硬體結合的形式實現,本申請實施例對此不作限定。
音訊解碼元件120對碼流進行解碼,獲得HOA訊號可包括以下幾個步驟:
1)對碼流進行解包(File/Segment decapsulation)處理。
2)對解包處理的訊號進行音訊解碼(Audio decoding)處理獲得解碼訊號。
3)對解碼訊號進行渲染(Audio rendering)處理。
4)渲染處理後的訊號映射到收聽者耳機(headphones)或者音箱上。收聽者耳機可以為獨立的耳機也可以是眼鏡設備等終端設備上的耳機。
可選地,音訊編碼元件110和音訊解碼元件120可以設置在同一設備中;或者,也可以設置在不同設備中。設備可以為手機、平板電腦、膝上型可攜式電腦和臺式電腦、藍牙音箱、錄音筆、可穿戴式設備等具有音訊訊號處理功能的移動終端,也可以是核心網、無線網中具有音訊訊號處理能力的網元,比如,媒體閘道、轉碼設備、媒體資源伺服器等,還可以是應用於虛擬實境(virtual reality,VR)流(streaming)服務中的音訊轉碼器,本申請實施例對此不作限定。
示意性地,參考圖1C,本實施例以音訊編碼元件110設置於移動終端130中、音訊解碼元件120設置於移動終端140中,移動終端130與移動終端140是相互獨立的具有音訊訊號處理能力的電子設備,且移動終端130與移動終端140之間通過無線或有線網路連接。
可選地,移動終端130包括音訊採集元件131、音訊編碼元件110和通道編碼元件132,其中,音訊採集元件131與音訊編碼元件110相連,音訊編碼元件110與音訊編碼元件132相連。
可選地,移動終端140包括音訊播放元件141、音訊解碼元件120和通道解碼元件142,其中,音訊播放元件141與音訊解碼元件120相連,音訊解碼元件120與通道編碼元件132相連。移動終端130通過音訊採集元件131採集到HOA訊號後,通過音訊編碼元件110對該HOA訊號進行編碼,獲得編碼碼流;然後,通過通道編碼元件132對編碼碼流進行編碼,獲得傳輸訊號。
移動終端130通過無線或有線網路將該傳輸訊號發送至移動終端140,比如可以通過無線或者有線網路的通信設備將該傳輸訊號發送至移動終端140中。移動終端130和移動終端140所屬的有線或者無線網路的通信設備可以相同,也可以不同。
移動終端140接收到該傳輸訊號後,通過通道解碼元件142對傳輸訊號進行解碼獲得編碼碼流(可以簡稱為碼流);通過音訊解碼元件120對編碼碼流進行解碼獲得HOA訊號;通過音訊播放元件播放該HOA訊號。
示意性地,參考圖1D,本申請實施例以音訊編碼元件110和音訊解碼元件120設置於同一核心網或無線網中具有音訊訊號處理能力的網元150中為例進行說明。
可選地,網元150包括通道解碼元件151、音訊解碼元件120、音訊編碼元件110和通道編碼元件152。其中,通道解碼元件151與音訊解碼元件120相連,音訊解碼元件120與音訊編碼元件110相連,音訊編碼元件110與通道編碼元件152相連。
通道解碼元件151接收到其它設備發送的傳輸訊號後,對該傳輸訊號進行解碼獲得第一編碼碼流;通過音訊解碼元件120對第一編碼碼流進行解碼獲得HOA訊號;通過音訊編碼元件110對該HOA訊號進行編碼,獲得第二編碼碼流;通過通道編碼元件152對該第二編碼碼流進行編碼獲得傳輸訊號。
其中,其它設備可以是具有音訊訊號處理能力的移動終端;或者,也可以是具有音訊訊號處理能力的其它網元,本實施例對此不作限定。
可選地,網元中的音訊編碼元件110和音訊解碼元件120可以對移動終端發送的編碼碼流進行轉碼。
可選地,本實施例中將安裝有音訊編碼元件110的設備稱為音訊編碼設備,在實際實現時,該音訊編碼設備也可以具有音訊解碼功能,本申請實施例對此不作限定。將安裝有音訊解碼元件120的設備可以稱為音訊解碼設備。
示意性地,參見圖2A所示,音訊編碼元件110可以包括空間編碼器210和核心編碼器220。待編碼的HOA訊號經過空間編碼器210進行編碼後獲得音訊通道訊號,即待編碼的HOA經過空間編碼器210產生虛擬揚聲器訊號和殘差訊號;核心編碼器220對音訊通道訊號進行編碼後獲得碼流。
示意性地,參見圖2B所示,音訊解碼元件120可以包括核心解碼器230和空間解碼器240。接收到碼流後,通過核心解碼器230對碼流進行解碼後獲得音訊通道訊號;然後空間解碼器240根據解碼獲得的音訊通道訊號(虛擬揚聲器訊號和殘差訊號),可以獲得重建的HOA訊號。
作為一種舉例,空間編碼器210和核心編碼器220可以是兩個獨立的處理單元。空間解碼器240和核心解碼器230可以是兩個獨立的處理單元。核心編碼器220通常情況下將音訊通道訊號作為多個單通道訊號或身歷聲通道訊號或多通道訊號進行編碼處理。
核心編碼器220會對每一幀的音訊通道訊號進行編碼處理。一種可能的方式是,對每一幀的音訊通道訊號的編碼參數進行計算,然後根據計算獲得的編碼參數對當前幀的音訊通道訊號進行編碼後寫入碼流,並將編碼參數寫入碼流。而這種方式僅考慮到音訊通道訊號間的相關性,忽略音訊通道訊號的幀間空間相關性,導致編碼效率較低。
由於音訊通道訊號是通過目標虛擬揚聲器在原始HOA訊號上映射獲得的,因此音訊通道訊號的幀間相關性與HOA訊號的虛擬揚聲器的選擇存在一定聯繫,當各個虛擬揚聲器的空間位置相同或鄰近時,音訊通道訊號在幀間有較強相關性。根據此,考慮到音訊通道訊號的幀間相關性,本申請實施例提供一種編解碼方式,通過當前幀對應的虛擬揚聲器和前一幀對應的虛擬揚聲器之間的鄰近關係,如果鄰近或者位置重疊,可以根據前一幀的編碼參數確定當前幀的編碼參數,從而不再通過各個編碼參數的計算演算法來計算當前幀的編碼參數,可以提高編碼效率。
在對本申請實施例提供的編解碼方案進行詳細描述之前,下面先對本申請實施例可能涉及的一些概念進行簡單介紹。本申請的實施方式部分使用的術語僅用於對本申請的具體實施例進行解釋,而非旨在限定本申請。
(1)HOA訊號是聲場的三維(3D)表示。HOA訊號通常由多個球諧係數(spherical harmonic coefficient,SHC)或者其它層次元素表示。根據 HOA 理論,對於理想的具有特定方向的訊號(比如,遠場的點聲源訊號或者平面波訊號),其對應的 HOA 訊號在各個通道之間只存在幅度上的差異,因此可以用單通道訊號和各個通道分別對應的一組比例係數進行表示。HOA技術中通常會將HOA訊號轉為實際揚聲器訊號後進行重播,或者將HOA訊號轉為虛擬揚聲器(virtual loudspeaker,VL)訊號再映射到雙耳對應的揚聲器訊號進行重播。其中(虛擬)揚聲器的選擇對重建訊號品質至關重要。
(2)當前幀是指對音訊訊號採集獲得的一定長度的樣點,比如960點或者1024點。前一幀,是指當前幀的前一幀,比如,當前幀為第n幀,則前一幀為第n-1幀。前一幀也可以稱為在先幀。
(3)音訊通道訊號,可以包括多通道的虛擬揚聲器訊號,或者包括多通道的虛擬揚聲器訊號和殘差訊號。比如,待編碼的HOA訊號經過多個虛擬揚聲器映射獲得多通道的虛擬揚聲器訊號和殘差訊號。虛擬揚聲器的通道資料和殘差訊號的通道數可以是預先設定的。音訊通道訊號也可以稱為傳輸通道,還可以採用的其它的名稱,本申請對此不作具體限定。作為一種舉例,虛擬揚聲器訊號的獲得可以是根據匹配投影演算法從虛擬揚聲器集合中選擇匹配待編碼的當前幀HOA訊號的目標虛擬揚聲器,根據當前幀的HOA訊號和選擇的目標虛擬揚聲器獲得虛擬揚聲器訊號。殘差訊號可以是根據待編碼HOA訊號和虛擬揚聲器訊號獲得的。
(4)編碼參數。例如,編碼參數可以包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
通道間配對參數用於表徵音訊通道訊號包括的多個音訊訊號分別所屬的通道之間的配對關係(或者稱為分組關係)。通道間配對音訊訊號的各個傳輸通道之間通過相關性等準則進行配對,實現傳輸通道高效編碼的一種計算方法。
作為一種示例,音訊通道訊號可以包括虛擬揚聲器訊號和殘差訊號。如下示例性地描述通道間配置參數的確定方式:
舉例來說,音訊通道訊號可以被劃分為兩組,虛擬揚聲器訊號為一組,稱為虛擬揚聲器訊號組,殘差訊號為一組,稱為殘差訊號組。虛擬揚聲器訊號組包含M個由單通道組成的虛擬揚聲器訊號,M為大於2的正整數,殘差訊號組包含N個由單聲道組成的殘差訊號,N為大於2的正整數。例如,M=4,N=4。通道間配對結果可以為兩兩通道配對,也可以為三個或更多通道配對,也可以為通道間不配對。以通道間兩兩配對為例,通道間配對參數指的是在每組內不同的訊號組成一對的選擇結果。以虛擬揚聲器訊號組為例,例如虛擬揚聲器訊號組包括4個通道,分別為通道1,通道2,通道3,通道4。例如,通道間配對參數可以為通道1和通道2配對,通道3和通道4配對,或通道1和通道3配對,通道2和通道4配對,或通道1和通道2配對,通道3和通道4不配對等情況。通道間配對參數確定的方式,本申請不作具體限定。作為一種舉例,可以採用構建通道間相關矩陣W的方法確定通道間配對參數,例如,參見公式(1):
Figure 02_image009
公式(1)
其中,m11-m44均表示兩個通道之間的相關性,進一步令矩陣對角元素值為0,以獲得W’,參見公式(2):
Figure 02_image011
公式(2)
通道間配對的原則可以是
Figure 02_image013
中元素取得最大值時的序號,此時通道間配對參數可以為矩陣元素的序號。
通道間聽覺空間參數用於表徵人耳對聽覺空間聲像特性的感知程度。示例性地,通道間聽覺空間參數可以包括通道間聲級差(inter-channel level difference,ILD)(也可以稱為聲道間聲級差)、通道間時間差(inter-channel time difference,ITD)(也可以稱為聲道間時間差)或者通道間相位差(inter-channel phase difference,IPD)(也可以稱為聲道間相位差)中的一項或者多項。
以ILD參數為例,ILD參數可以為音訊通道訊號中每個通道的訊號能量相對於所有通道能量平均值的比值。作為一種舉例,ILD參數可以由各通道的比值絕對值和調整方向值兩個參數組成。本申請實施例對ILD、ITD或者IPD的確定方式不作具體限定。
以ITD參數為例,例如音訊通道訊號包括的兩個通道的訊號,分別為通道1和通道2,則ITD參數可以為音訊通道訊號中兩個通道的時間差的比值。以IPD參數為例,例如音訊通道訊號包括的兩個通道的訊號,分別為通道1和通道2,則IPD參數可以為音訊通道訊號中兩個通道的相位差的比值。
通道間位元分配參數用於表徵音訊通道訊號包括的多個音訊訊號分別所屬的通道在編碼時的位元分配關係。示例性的,通道間位元分配時可以採用根據能量的通道間位元分配方式來實現。例如待分配位元的通道包括4個通道,分別為通道1,通道2,通道3,通道4。待分配位元通道可以是音訊通道訊號包括的多個音訊訊號所屬的通道,也可以是經過對音訊通道訊號進行通道配對後的下混獲得的多個通道,也可以是經過通道間ILD計算和通道間配對下混後獲得的多個通道。通過通道間位元分配可以獲得通道1、通道2、通道3和通道4的位元分配比值,該位元分配的比值即可作為通道間位元分配參數,例如通道1佔用3/16、通道2佔用5/16、通道3佔用6/16和通道4佔用2/16。通道間位元分配所採用的方式,本申請實施例中不作具體限定。
參見圖3A和圖3B所示,為本申請一個示例性實施例提供的編碼方法的流程示意圖。編碼方法可以由音訊編碼設備來實現,或者由音訊編碼元件來實現,或者由核心編碼器來實現。後續描述時,以由音訊編碼元件來實現為例。
301,獲得當前幀的音訊通道訊號,所述當前幀的音訊通道訊號是通過第一目標虛擬揚聲器對原始HOA訊號進行空間映射獲得的。
一種可能的示例中,第一目標虛擬揚聲器可以包括一個或者多個虛擬揚聲器,也可以包括一個或者多個虛擬揚聲器組。每個揚聲器組可以包括一個或者多個虛擬揚聲器。不同的虛擬揚聲器組包括的虛擬揚聲器的數量可以相同,也可以不同。第一目標虛擬揚聲器中的每個虛擬揚聲器均對原始HOA訊號進行空間映射獲得音訊通道訊號。音訊通道訊號可以包括一個或者多個通道的音訊訊號。例如,一個虛擬揚聲器對原始HOA訊號進行空間映射獲得一個通道的音訊通道訊號。
例如,第一目標虛擬揚聲器包括M個虛擬揚聲器,M為正整數。當前幀的音訊通道訊號可以包括M個通道的虛擬揚聲器訊號。M個通道的虛擬揚聲器訊號與M個虛擬揚聲器一一對應。
第一目標虛擬揚聲器包括的揚聲器的數量可以與編碼速率或者傳輸速率相關,也可以與音訊編碼元件的複雜度相關,也可以通過配置確定。例如,當編碼速率較低時,比如等於128kbps時,M=1,當編碼速率中等時,比如等於384kbps時,M =4,當編碼速率較高時,例如等於768kbps時,M =7。再例如,當編碼器複雜度較低時,M =1,當編碼器複雜度中等時,M =2,當編碼器複雜度較高時,M =6。又例如:當編碼速率為128kbps時,且編碼複雜度要求較低時,M =1。
302,在確定所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器滿足設定條件時,根據所述前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數。
示例性地,第一編碼參數可以包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
例如,確定所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器滿足設定條件,可以理解為確定所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器之間的鄰近關係滿足設定條件,或者理解為所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器之間鄰近。鄰近關係可以理解為第一目標虛擬揚聲器與第二目標虛擬揚聲器之間的空間位置關係,或者可以通過第一目標虛擬揚聲器與第二目標虛擬揚聲器之間的空間相關性表徵鄰近關係。
作為一種舉例,設定條件是否滿足可以通過第一目標虛擬揚聲器的空間位置與第二目標虛擬揚聲器的空間位置來確定。為了便於區分,將第一目標虛擬揚聲器的空間位置稱為第一空間位置,第二目標虛擬揚聲器的空間位置稱為第二空間位置。可以理解的是,第一目標虛擬揚聲器可以包括M個虛擬揚聲器,則第一空間位置可以包括M個虛擬揚聲器中每個虛擬揚聲器的空間位置。第二目標虛擬揚聲器可以包括N個虛擬揚聲器,則第二空間位置可以包括N個虛擬揚聲器中每個虛擬揚聲器的空間位置。M和N均為大於1的正整數。M與N可以相同,也可以不同。示例性地,目標虛擬揚聲器的空間位置可以通過座標或者序號或者HOA係數來表徵。可選地,M=N。
一些可能的實施例中,所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器滿足設定條件,可以包括第一空間位置與第二空間位置重疊,也可以理解為鄰近關係滿足設定條件。第一空間位置與第二空間位置重疊時,可以複用第二編碼參數作為第一編碼參數,即將前一幀的音訊通道訊號的編碼參數作為當前幀的音訊通道訊號的編碼參數。
在第一目標虛擬揚聲器和第二目標虛擬揚聲器均包括多個虛擬揚聲器時,第一目標虛擬揚聲器和第二目標虛擬揚聲器包括的虛擬揚聲器的數量相同,第一空間位置與第二空間位置重疊,可以描述為第一目標虛擬揚聲器包括的多個虛擬揚聲器的空間位置與第二目標虛擬揚聲器包括的多個虛擬揚聲器的空間位置一一對應重疊。
比如,空間位置通過座標來表徵時,為了便於區分,將第一目標虛擬揚聲器的座標稱為第一座標,第二目標虛擬揚聲器的座標稱為第二座標,即第一空間位置包括第一目標虛擬揚聲器的第一座標,第二空間位置包括第二目標虛擬揚聲器的第二座標,則第一空間位置與第二空間位置重疊,即為第一座標與第二座標相同。應理解的是,當第一目標虛擬揚聲器和第二目標虛擬揚聲器均包括多個虛擬揚聲器時,第一目標虛擬揚聲器包括的多個虛擬揚聲器的座標與第二目標虛擬揚聲器包括的多個虛擬揚聲器的座標一一對應相同。
再比如,空間位置通過虛擬揚聲器的序號來表徵時,為了便於區分,將第一目標虛擬揚聲器的序號稱為第一序號,第二目標虛擬揚聲器的序號稱為第二序號,即第一空間位置包括第一目標虛擬揚聲器的第一序號,第二空間位置包括第二目標虛擬揚聲器的第二序號,則第一空間位置與第二空間位置重疊,即為第一序號與第二序號相同。應理解的是,當第一目標虛擬揚聲器和第二目標虛擬揚聲器均包括多個虛擬揚聲器時,第一目標虛擬揚聲器包括的多個虛擬揚聲器的序號與第二目標虛擬揚聲器包括的多個虛擬揚聲器的序號一一對應相同。
又比如,空間位置通過虛擬揚聲器的HOA係數來表徵時,為了便於區分,將第一目標虛擬揚聲器的HOA係數稱為第一HOA係數,第二目標虛擬揚聲器的HOA係數稱為第二HOA係數,即第一空間位置包括第一目標虛擬揚聲器的第一HOA係數,第二空間位置包括第二目標虛擬揚聲器的第二HOA係數,則第一空間位置與第二空間位置重疊,即為第一HOA係數與第二HOA係數相同。應理解的是,當第一目標虛擬揚聲器和第二目標虛擬揚聲器均包括多個虛擬揚聲器時,第一目標虛擬揚聲器包括的多個虛擬揚聲器的HOA係數與第二目標虛擬揚聲器包括的多個虛擬揚聲器的HOA係數一一對應相同。
又一些可能的實施例中,所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器滿足設定條件,可以包括第一空間位置與第二空間位置不重疊且第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內。也可以理解為鄰近關係滿足設定條件。例如,可以確定針對第一目標虛擬揚聲器包括的第m個虛擬揚聲器是否位於以第二目標虛擬揚聲器包括的第n個虛擬揚聲器為中心的設定範圍內,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數,以確定所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器是否滿足設定條件。比如,當第一空間位置與第二空間位置不重疊時,如果第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內時,可以將按照設定比例調整前一幀的音訊通道訊號的第二編碼參數獲得當前幀的音訊通道訊號的第二編碼參數。又比如,當第一空間位置與第二空間位置不重疊時,如果第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內時,當前幀的音訊通道訊號可以部分複用前一幀的音訊通道訊號的第二編碼參數。例如,當前幀的音訊通道訊號中虛擬揚聲器訊號的編碼參數複用前一幀的音訊通道訊號中虛擬揚聲器訊號的編碼參數,當前幀的音訊通道訊號中的殘差訊號的編碼參數不復用前一幀的音訊通道訊號中的虛擬揚聲器訊號的編碼參數。又例如,當前幀的音訊通道訊號中虛擬揚聲器訊號的編碼參數複用前一幀的音訊通道訊號中虛擬揚聲器訊號的編碼參數,當前幀的音訊通道訊號中的殘差訊號的編碼參數由按照設定比例調整前一幀的音訊通道訊號中的虛擬揚聲器訊號的編碼參數獲得。
以當前幀的音訊通道訊號包括兩個虛擬揚聲器訊號,分別為H1,H2為例,第一目標虛擬揚聲器包括兩個虛擬揚聲器,分別為虛擬揚聲器1-1和虛擬揚聲器1-2。以前一幀的音訊通道訊號包括兩個虛擬揚聲器訊號,分別為FH1,FH2為例,第二目標虛擬揚聲器包括兩個虛擬揚聲器,分別為虛擬揚聲器2-1和虛擬揚聲器2-2。虛擬揚聲器1-1位於以虛擬揚聲器2-1為中心的設定範圍內,虛擬揚聲器1-2位於以虛擬揚聲器2-2為中心的設定範圍內,則第一目標虛擬揚聲器與第二目標虛擬揚聲器的鄰近關係滿足設定條件。
比如,以第一空間位置包括第一座標,第二空間位置包括第二座標為例,虛擬揚聲器的座標通過(水平角azi,俯仰角ele)表示。虛擬揚聲器1-1的座標為(H1_pos_aiz,H1_pos_ele),虛擬揚聲器1-2的座標為(H2_pos_aiz,H2_pos_ele)。虛擬揚聲器2-1的座標為(FH1_pos_aiz,FH1_pos_ele),虛擬揚聲器2-2的座標為(FH2_pos_aiz,FH2_pos_ele)。當H1_Pos_azi ∈ [HF1_Pos_azi ± TH1]且H1_Pos_ele ∈ [HF1_Pos_ele ± TH2]且H2_Pos_azi ∈ [HF2_Pos_azi ± TH3]且H2_Pos_ele ∈ [HF1_Pos_ele ± TH4]時,第一目標虛擬揚聲器與第二目標虛擬揚聲器的鄰近關係滿足設定條件,即第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內。其中,TH1、TH2和TH3和TH4為用於表徵設定範圍的設定閾值。比如,TH1、TH2和TH3和TH4可以相同也可以不同,或者TH1=TH3,TH2=TH4。
比如,以第一空間位置包括第一序號,第二空間位置包括第二序號為例。虛擬揚聲器1-1的序號為H1_Ind,虛擬揚聲器1-2的序號為H2_Ind。虛擬揚聲器2-1的序號為FH1_Ind,虛擬揚聲器2-2的序號為FH2_Ind。當H1_Ind ∈ [FH1_Ind ± TH5]且H2_Ind ∈ [FH2_Ind ± TH6]時,第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件,即第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內。其中,TH5、TH6為用於表徵設定範圍的設定閾值。可選地,TH5=TH6。
比如,以第一空間位置包括第一HOA係數,第二空間位置包括第二HOA係數為例。虛擬揚聲器1-1的HOA係數為H1_Coef,虛擬揚聲器1-2的HOA係數為H2_Coef。虛擬揚聲器2-1的HOA係數為FH1_ Coef,虛擬揚聲器2-2的HOA係數為FH2_ Coef。當H1_ Coef ∈ [FH1_ Coef± TH7]且H2_Ind ∈ [HF2_Ind ± TH8]時,第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件,即第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內。其中,TH7、TH8為用於表徵設定範圍的設定閾值。可選地,TH7=TH8。
在一些可能的實施例中,音訊編碼元件還可以通過確定第一目標虛擬揚聲器與第二目標虛擬揚聲器之間的相關度,確定第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件。
作為一種舉例,音訊編碼元件可以根據第一目標虛擬揚聲器的第一座標與第二目標虛擬揚聲器的第二座標確定第一目標虛擬揚聲器與第二目標虛擬揚聲器之間的相關度。
比如,音訊編碼元件確定第一目標虛擬揚聲器的第一座標與第二目標虛擬揚聲器的第二座標相同時,相關度R=1。在該情況下,第一編碼參數可以複用第二編碼參數。
又比如,當音訊編碼元件確定第一目標虛擬揚聲器的第一座標與第二目標虛擬揚聲器的第二座標不完全相同時,可以通過如下公式(3)確定相關度。
Figure 02_image015
公式(3)
其中,R表示相關度,
Figure 02_image003
表示歸一化運算,
Figure 02_image018
表示確定距離的運算,
Figure 02_image020
表示所述第一目標虛擬揚聲器中第m個虛擬揚聲器的座標,
Figure 02_image022
表示所述第二目標虛擬揚聲器中第n個虛擬揚聲器的座標。
Figure 02_image024
表示確定第一目標虛擬揚聲器包括的第m個虛擬揚聲器與第二目標虛擬揚聲器包括的第n個虛擬揚聲器之間的距離。m遍歷不大於N的正整數,n遍歷不大於N的正整數。N為第一目標虛擬揚聲器與第二目標虛擬揚聲器包括的虛擬揚聲器。
又比如,當音訊編碼元件確定第一目標虛擬揚聲器的第一座標與第二目標虛擬揚聲器的第二座標不完全相同時,可以通過如下公式(4)確定相關度。
當前幀的第一目標虛擬揚聲器中包括N個虛擬揚聲器,分別為:H1,H2,…HN,前一幀的第二目標虛擬揚聲器包括N個虛擬揚聲器,分別為FH1,FH2,…FHN。
Figure 02_image026
公式(4)
其中,
Figure 02_image005
為當前幀的第一目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣,
Figure 02_image007
為前一幀的第二目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣的轉置。
例如:
Figure 02_image030
Figure 02_image032
又比如,根據所述第一目標虛擬揚聲器的第一座標以及所述第二目標虛擬揚聲器的第二座標確定的所述第一目標虛擬揚聲器與所述第二目標虛擬揚聲器之間的相關度滿足如下公式(5)所示的條件: R =
Figure 02_image034
;公式(5)
其中,R表示相關度,
Figure 02_image003
表示歸一化運算,
Figure 02_image036
表示括弧內元素取最大值運算,
Figure 02_image038
表示所述第一目標虛擬揚聲器包括的第i個虛擬揚聲器的水平角,
Figure 02_image040
表示所述第二目標虛擬揚聲器包括的第i個虛擬揚聲器的水平角,
Figure 02_image042
表示所述第一目標虛擬揚聲器包括的第i個虛擬揚聲器的俯仰角,
Figure 02_image044
表示所述第一目標虛擬揚聲器包括的第i個虛擬揚聲器的俯仰角。
當相關度不等於1且大於設定值時,第一編碼參數可以部分複用第二編碼參數,或者第一編碼參數由按照設定比例調整第二編碼參數獲得。例如,設定值為大於0.5且小於1的數。
303,根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼並寫入碼流。也可以描述為,根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼獲得編碼結果,並將編碼結果寫入碼流。
一些可能的實施例中,在第一目標虛擬揚聲器的第一空間位置與第二目標虛擬揚聲器的第二空間位置重疊時,複用第二編碼參數作為第一編碼參數對當前幀的音訊通道訊號進行編碼並寫入碼流。
另一些可能的實施例中,當第一空間位置與第二空間位置不重疊時,如果第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內時,可以按照設定比例調整所述第二編碼參數獲得第一編碼參數。
例如,設定比例通過α表示,當前幀的音訊通道訊號的第一編碼參數 =α * 前一幀的音訊通道訊號的第二編碼參數,其中α取值範圍為(0, 1)。第一編碼參數可以包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。在一些示例中,不同的編碼參數,α的取值可以不同。比如,通道間配對參數對應的α的取值為α1,通道間位元分配參數對應的α的取值為α2。
進一步地,音訊編碼元件還需要通過碼流向音訊解碼元件通知當前幀的音訊通道訊號的第一編碼參數。
一些實施例中,音訊編碼元件可以通過在碼流中寫入第一編碼參數,以實現向音訊解碼元件通知當前幀的音訊通道訊號的第一編碼參數。參見圖3A所示,音訊編碼元件還執行304a,將第一編碼參數寫入碼流。
結合圖3A所述的編碼方法,參見圖4A所示,解碼側可以通過如下解碼方法來解碼。解碼側的方法可以由音訊解碼設備執行,也可以由音訊解碼元件執行,或者由核心編碼器執行。後續以音訊解碼元件執行解碼側的方法為例。
405a,音訊編碼元件將碼流發送到音訊解碼元件,從而音訊解碼元件接收到碼流。
406a,音訊解碼元件從碼流中解碼獲得第一編碼參數。
407a,音訊解碼元件根據第一編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。
另一些實施例中,音訊編碼元件可以通過在碼流中寫入複用標識,通過複用標識的不同取值來指示當前幀的音訊通道訊號的第一編碼參數如何獲得。參見圖3B所示,音訊編碼元件還執行304b,將複用標識編入碼流。複用標識用於指示當前幀的音訊通道訊號的第一編碼參數通過前一幀的音訊通道訊號的第二編碼參數確定。
一種可能的方式中,在第一目標虛擬揚聲器的第一空間位置與第二目標虛擬揚聲器的第二空間位置重疊時,複用標識為第一值,以指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。可選地,在該方式下,可以不再碼流中寫入該第一編碼參數,減少資源佔用,提高傳輸效率。可選地,在第一目標虛擬揚聲器的第一空間位置與第二目標虛擬揚聲器的第二空間位置不重疊時,複用標識為第三值,以指示當前幀的音訊通道訊號的第一編碼參數不復用第二編碼參數,可以在碼流中寫入確定的第一編碼參數。該第一編碼參數可以是根據第二編碼參數確定的,也可以是通過計算獲得的。比如,當第一空間位置與第二空間位置不重疊時,如果第一目標虛擬揚聲器包括的多個虛擬揚聲器一一對應位於以第二目標虛擬揚聲器包括的多個虛擬揚聲器為中心的設定範圍內時,可以按照設定比例調整所述第二編碼參數獲得第一編碼參數,然後將獲得的第一編碼參數寫入碼流以及將取值為第三值的複用標識寫入碼流。再比如,當第一目標虛擬揚聲器與第二目標虛擬揚聲器不滿足設定條件時,可以計算當前幀的音訊通道訊號的第一編碼參數,將第一編碼參數寫入碼流,以及將取值為第三值的複用標識寫入碼流。例如,第一值為0,第三值為1,或者第一值為1,第三值為0。當然第一值、第三值還可以是其它的取值,本申請實施例對此不作限定。
另一種可能的方式中,在第一目標虛擬揚聲器的第一空間位置與第二目標虛擬揚聲器的第二空間位置重疊時,將複用標識寫入碼流,複用標識為第一值,以指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。按照設定比例調整所述第二編碼參數獲得所述第一編碼參數,並將複用標識寫入碼流中,複用標識取值為第二值,以指示所述當前幀的音訊通道訊號的第一編碼參數通過按照設定比例調整所述第二編碼參數獲得。可選地,音訊編碼元件還可以將所述設定比例寫入所述碼流。在一些示例中,當第一目標虛擬揚聲器與第二目標虛擬揚聲器不滿足設定條件時,可以計算當前幀的音訊通道訊號的第一編碼參數,將第一編碼參數寫入碼流,以及將取值為第三值的複用標識寫入碼流。例如,第一值為11,第二值為01,第三值為00。當然第一值、第二值、第三值還可以是其它的取值,本申請實施例對此不作限定。
結合圖3B對應編碼方法,參見圖4B所示,解碼側可以通過如下解碼方法來解碼。解碼側的方法可以由音訊解碼設備執行,也可以由音訊解碼元件執行,或者由核心編碼器執行。後續以音訊解碼元件執行解碼側的方法為例。
405b,音訊編碼元件將碼流發送到音訊解碼元件,從而音訊解碼元件接收到碼流。
406b,音訊解碼元件從碼流中解碼獲得複用標識。
407b,當複用標識指示當前幀的音訊通道訊號的第一編碼參數通過前一幀的音訊通道訊號的第二編碼參數確定時,音訊解碼元件根據第二編碼參數確定第一編碼參數。
408b,根據第一編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。
在一些場景中,複用標識可以包括兩種取值,比如,複用標識的取值為第一值,以指示當前幀的音訊通道訊號的第一編碼參數複用第二編碼參數。複用標識的取值為第三值,指示當前幀的音訊通道的第一編碼參數不復用第二編碼參數。音訊解碼元件從碼流中解碼獲得複用標識,當複用標識的取值為第一值時,複用第二編碼參數作為第一編碼參數,根據複用的第二編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。當複用標識的取值為第三值時,從碼流中解碼獲得當前幀的音訊通道訊號的第一編碼參數,然後根據解碼獲得的第一編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。
在另一些場景中,複用標識可以包括兩種以上取值,複用標識為第一值,以指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。複用標識取值為第二值,以指示按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。複用標識取值為第三值,指示從碼流中解碼獲得第一編碼參數。音訊解碼元件從碼流中解碼獲得複用標識,當複用標識的取值為第一值時,複用第二編碼參數作為第一編碼參數,根據複用的第二編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。當複用標識的取值為第二值時,根據設定比例調整第二編碼參數獲得第一編碼參數,然後根據獲得的第一編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。可選地,設定比例可以是預先配置與音訊解碼元件中的,音訊解碼元件可以獲得配置的設定比例,從而根據設定比例調整第二編碼參數獲得第一編碼參數。設定比例可以由音訊編碼元件寫入碼流,音訊解碼元件可以從碼流中解碼獲得設定比例。當複用標識的取值為第三值時,從碼流中解碼獲得當前幀的音訊通道訊號的第一編碼參數,然後根據解碼獲得的第一編碼參數從碼流中解碼獲得當前幀的音訊通道訊號。
在一些可能的實施例中,第一編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
在第一編碼參數包括多個參數時,針對不同參數可以採用一個複用標識,還可以針對多個參數採用不同的複用標識。
針對不同參數可以採用相同的複用標識為例,當複用標識為第一值時,指示第一編碼參數包括參數均複用前一幀的音訊通道訊號的第二編碼參數。
下面針對不同的參數可以採用不同的複用標識進行描述。
作為一種舉例,第一編碼參數包括通道間配對參數。比如,通過複用標識Flag_1來指示當前幀的音訊通道訊號的通道間配對參數是否複用前一幀的音訊通道訊號的通道間配對參數。例如,Flag_1=1時,指示當前幀的音訊通道訊號的通道間配對參數複用前一幀的音訊通道訊號的通道間配對參數;Flag_1=0時,指示當前幀的音訊通道訊號的通道間配對參數不復用前一幀的音訊通道訊號的通道間配對參數。又例如,Flag_1=11時,指示當前幀的音訊通道訊號的通道間配對參數複用前一幀的音訊通道訊號的通道間配對參數;Flag_1=00時,指示當前幀的音訊通道訊號的通道間配對參數不復用前一幀的音訊通道訊號的通道間配對參數;Flag_1=01(或者10),指示當前幀的音訊通道訊號的通道間配對參數由按照設定比例調整前一幀的音訊通道訊號的通道間配對參數獲得,或者指示當前幀的音訊通道訊號的通道間配對參數部分複用前一幀的音訊通道訊號的通道間配對參數。
作為另一種舉例,第一編碼參數包括通道間聽覺空間參數。通道間聽覺空間參數中包括ILD、IPD或者ITD中的一項或者多項。
一種可能的方式中,通道間聽覺空間參數包括多項參數時,一個複用標識可以指示當前幀的音訊通道訊號的通道間聽覺空間參數包括的多個參數是否複用前一幀的音訊通道訊號的通道間聽覺空間參數。
比如,以通道間聽覺空間參數包括ILD、IPD和ITD為例。通過複用標識Flag_2來指示當前幀的音訊通道訊號的通道間聽覺空間參數(包括ILD、IPD和ITD)是否複用前一幀的音訊通道訊號的通道間聽覺空間參數。例如,Flag_2=1時,指示當前幀的音訊通道訊號的通道間聽覺空間參數複用前一幀的音訊通道訊號的通道間聽覺空間參數;Flag_2=0時,指示當前幀的音訊通道訊號的通道間聽覺空間參數不復用前一幀的音訊通道訊號的通道間聽覺空間參數。又例如,Flag_2=11時,指示當前幀的音訊通道訊號的通道間聽覺空間參數複用前一幀的音訊通道訊號的通道間聽覺空間參數;Flag_2=00時,指示當前幀的音訊通道訊號的通道間聽覺空間參數不復用前一幀的音訊通道訊號的通道間聽覺空間參數;Flag_2=01(或者10),指示當前幀的音訊通道訊號的通道間聽覺空間參數由按照設定比例調整前一幀的音訊通道訊號的通道間聽覺空間參數獲得,或者指示當前幀的音訊通道訊號的通道間聽覺空間參數部分複用前一幀的音訊通道訊號的通道間聽覺空間參數。
另一種可能的方式中,通道間聽覺空間參數包括多項參數時,不同的參數採用不同的複用標識。以通道間聽覺空間參數包括ILD、IPD和ITD為例。通過複用標識Flag_2-1來指示當前幀的音訊通道訊號的ILD是否複用前一幀的音訊通道訊號的ILD。通過複用標識Flag_2-2來指示當前幀的音訊通道訊號的ITD是否複用前一幀的音訊通道訊號的ITD。通過複用標識Flag_2-3來指示當前幀的音訊通道訊號的IPD是否複用前一幀的音訊通道訊號的IPD。
作為又一種舉例,第一編碼參數包括通道間位元分配參數。比如,通過複用標識Flag_3來指示當前幀的音訊通道訊號的通道間位元分配參數是否複用前一幀的音訊通道訊號的通道間位元分配參數。例如,Flag_3=1時,指示當前幀的音訊通道訊號的通道間位元分配參數複用前一幀的音訊通道訊號的通道間位元分配參數;Flag_3=0時,指示當前幀的音訊通道訊號的通道間位元分配參數不復用前一幀的音訊通道訊號的通道間位元分配參數。又例如,Flag_3=11時,指示當前幀的音訊通道訊號的通道間位元分配參數複用前一幀的音訊通道訊號的通道間位元分配參數;Flag_3=00時,指示當前幀的音訊通道訊號的通道間位元分配參數不復用前一幀的音訊通道訊號的通道間位元分配參數;Flag_3=01(或者10),指示當前幀的音訊通道訊號的通道間位元分配參數由按照設定比例調整前一幀的音訊通道訊號的通道間位元分配參數獲得,或者指示當前幀的音訊通道訊號的通道間位元分配參數部分複用前一幀的音訊通道訊號的通道間位元分配參數。
如下對本申請實施例涉及的虛擬揚聲器的HOA係數的生成過程進行示例性地說明。虛擬揚聲器的HOA係數的生成還可以採用其它的方式,本申請實施例對此不作具體限定。
以聲波在理想介質中傳播為例,波數為
Figure 02_image046
, 角頻率
Figure 02_image048
,
Figure 02_image050
為聲波頻率,
Figure 02_image052
為聲速。則聲壓
Figure 02_image054
滿足如下公式(6),其中
Figure 02_image056
為拉普拉斯運算元:
Figure 02_image058
公式(6)
在球座標下求解公式(6)所示的方程中的p,在無源球形區域內,該方程的解p可以表達為如下公式(7):
Figure 02_image060
公式(7)
在上述公式(7)中,r表示球半徑,
Figure 02_image062
表示水平角,
Figure 02_image064
表示俯仰角,
Figure 02_image066
表示波數,
Figure 02_image068
為理想平面波的幅度,
Figure 02_image070
為 HOA階數的序號,
Figure 02_image072
是球貝塞爾函數,又稱徑向基函數,
Figure 02_image072
中第一個
Figure 02_image074
表示虛數單位。
Figure 02_image076
部分不隨角度變化。
Figure 02_image078
即為
Figure 02_image080
方向的球諧函數,
Figure 02_image082
是聲源方向的球諧函數。
其Ambisonics 係數可以表示為公式(8):
Figure 02_image084
公式(8)
根據公式(8)進一步獲得公式(7)對應的展開形式如公式(9)所示:
Figure 02_image086
公式(9)
公式(9)表明聲場可以在球面上按球諧函數展開,使用係數
Figure 02_image088
進行表示。或者,已知係數
Figure 02_image088
,可以根據
Figure 02_image088
重建聲場。將上式截斷到第
Figure 02_image090
項,以係數
Figure 02_image088
作為對聲場的近似描述,則稱為
Figure 02_image090
階的HOA係數,該HOA係數也可以稱為Ambisonics 係數。
Figure 02_image092
階Ambisonics係數共有
Figure 02_image094
個通道。其中,一階以上的Ambisonics訊號也稱為 HOA訊號。在一種可能的配置下,HOA階數可以為2至10階。將球諧函數按照 HOA 訊號一個採樣點對應的係數進行疊加,就能實現該採樣點對應的時刻空間聲場的重構。
根據上述描述可以生成虛擬揚聲器的HOA係數。將公式(8)中的
Figure 02_image096
Figure 02_image098
設置為虛擬揚聲器的座標,即水平角(
Figure 02_image096
)和俯仰角(
Figure 02_image098
),根據公式(8)可以獲得該揚聲器的HOA係數,也稱作Ambisonics係數。
對於3階HOA訊號,令理想平面波的幅度s=1,其對應的16通道HOA係數可以通過球諧函數
Figure 02_image100
獲得,3階HOA訊號對應的16通道HOA係數計算公式具體如表1所示。
表1
l m 極座標中的運算式
0 0
Figure 02_image102
1 0
Figure 02_image104
1 +1
Figure 02_image106
1 -1
Figure 02_image108
2 0
Figure 02_image110
2 +1
Figure 02_image112
2 -1
Figure 02_image114
2 +2
Figure 02_image116
2 -2
Figure 02_image118
3 0
Figure 02_image120
3 +1
Figure 02_image122
3 -1
Figure 02_image124
3 +2
Figure 02_image126
3 -2
Figure 02_image128
3 +3
Figure 02_image130
3 -3
Figure 02_image132
其中表1中,
Figure 02_image134
表示揚聲器水平角,
Figure 02_image136
表示揚聲器的仰角。l表示HOA階數,l=0,1…P;m表示每一階中的方向參數,m=-l,…,l。按照表1中極座標中的運算式,可以根據揚聲器位置座標,獲得3階 HOA訊號對應的16通道係數。
下面對當前幀的目標虛擬揚聲器的確定方法以及音訊通道訊號的生成方法進行示例性地說明。當前幀的目標虛擬揚聲器的確定以及音訊通道訊號的生成還可以採用其它的方式,本申請實施例對此不作具體限定。
A1,音訊編碼元件確定第一目標虛擬揚聲器包括的虛擬揚聲器的個數和音訊通道訊號包括的虛擬揚聲器訊號的個數。
第一目標虛擬揚聲器的個數M不能超過虛擬揚聲器總個數,比如,虛擬揚聲器集合包括1024個虛擬揚聲器,虛擬揚聲器訊號的個數K(編碼器要傳輸的虛擬揚聲器訊號)不能超過第一目標虛擬揚聲器個數M。
其中,第一目標虛擬揚聲器包括的虛擬揚聲器的個數M可以與編碼速率相關,也可以與編碼器複雜度相關,也可以通過用戶指定。例如,當速率較低時,例如等於128kbps時,M=1,當速率中等時,例如等於384kbps時,M =4,當速率較高時,例如等於768kbps時,M =7;當編碼器複雜度較低時,M =1,當編碼器複雜度中等時,M =2,當編碼器複雜度較高時,M =6。又例如:當編碼速率為128kbps時,且編碼複雜度要求較低時,M =1。
可選地,第一目標虛擬揚聲器的個數M也可以通過場景訊號類型參數獲得。例如,場景訊號類型參數可以是對當前幀的待編碼HOA訊號進行SVD分解後的特徵值。通過場景訊號類型參數可以獲得聲場中包含不同方向的聲源個數d,第一目標虛擬揚聲器的個數M滿足
Figure 02_image138
A2,根據待編碼的HOA訊號、候選虛擬揚聲器集合確定第一目標虛擬揚聲器中的虛擬揚聲器。
首先,計算待編碼HOA訊號第j個頻點的第i輪次的揚聲器投票值
Figure 02_image140
,確定第j個頻點的第i輪次的匹配揚聲器序號
Figure 02_image142
及其對應的投票值
Figure 02_image144
。可以先根據當前幀的待編碼HOA訊號確定代表點,然後根據待編碼HOA訊號的代表點計算揚聲器投票值。也可以直接根據當前幀的待編碼HOA訊號的每一個點計算揚聲器投票值。代表點可以是時域上的代表樣點也可以頻域上的代表頻點。
第i輪次中揚聲器集合可以是虛擬揚聲器集合,包含Q個虛擬揚聲器;也可以按照預先設定的規律從虛擬揚聲器集合中選出的子集。不同輪次中使用的揚聲器集合可以相同也可以不同。
本實施例以採用待編碼HOA訊號的L’個代表頻點、使用虛擬揚聲器集合作為每一輪計算投票值的揚聲器為例,給出一種揚聲器投票值計算方法:揚聲器投票值通過待編碼訊號的HOA係數與揚聲器的HOA係數的投影獲得。
具體的步驟包括:
(1)計算待編碼訊號第j個頻點的HOA係數與第
Figure 02_image146
個揚聲器的HOA係數的投影值,獲得第i輪第
Figure 02_image146
個揚聲器的投票值
Figure 02_image140
Figure 02_image148
=1,2…Q。
以下給出一種求取投影值的實施方法:
Figure 02_image150
Figure 02_image152
Figure 02_image154
其中
Figure 02_image134
為方位角
Figure 02_image156
為俯仰角,
Figure 02_image158
為待編碼訊號第j個頻點的HOA係數,
Figure 02_image160
Figure 02_image162
為第l個揚聲器的HOA係數,
Figure 02_image148
=1,2…Q,Q為揚聲器總個數。
(2)根據投票值
Figure 02_image140
Figure 02_image148
=1,2…Q,獲得第j個頻點對應的第i輪投票的匹配揚聲器
Figure 02_image142
例如,第j個頻點對應的第i輪投票的匹配揚聲器
Figure 02_image142
的選取準則為從第j個頻點對應的第i輪投票的Q個揚聲器對應的投票值中選取投票值的絕對值最大的揚聲器為第j個頻點第i輪投票的匹配揚聲器,其序號為
Figure 02_image164
(3)若i小於投票輪次數I,則從待編碼的第j個頻點的HOA訊號中減去第j個頻點的第i輪投票選中的揚聲器的HOA係數,作為第j個頻點下一輪次計算揚聲器投票值所需的待編碼HOA訊號:
Figure 02_image166
其中
Figure 02_image168
為第j個頻點第i輪投票的匹配揚聲器的投票值,上述
Figure 02_image170
公式右側的
Figure 02_image172
為用於第j個頻點對應的第i輪投票的待編碼訊號的HOA係數, 公式左側的
Figure 02_image170
為用於第j個頻點對應的第i+1輪投票的待編碼訊號的HOA係數,
Figure 02_image174
為權值,可以預先設定的值滿足
Figure 02_image176
,除此之外給出一種自我調整權值計算方法:
Figure 02_image178
, 其中norm為求取二範數運算,
Figure 02_image172
為第j個頻點第i輪投票的匹配揚聲器的HOA係數。
(4)重複(1)至(3),直到計算出第j個樣點的各個輪次匹配揚聲器的投票值
Figure 02_image144
,i=1,2,…,I。
(5)重複(1)至(4),直到計算出所有頻點的匹配揚聲器的投票值
Figure 02_image144
,i=1,2,…,I,j=1,2,…, L’。
其次,根據各個代表頻點在各個輪次的匹配揚聲器序號
Figure 02_image142
及其對應的投票值
Figure 02_image144
計算各個匹配揚聲器的總投票值
Figure 02_image180
Figure 02_image182
Figure 02_image184
具體實現為對匹配揚聲器的序號相等的所有匹配揚聲器的投票值
Figure 02_image144
進行累加以獲得該匹配揚聲器對應的總投票值。例如: for(j=1,j<=L’,j++) { for(i=1,j<=I,i++) {
Figure 02_image186
+=
Figure 02_image188
} }
根據匹配揚聲器的總投票值確定最佳匹配揚聲器集合。具體地可以是,對所有匹配揚聲器的總投票值
Figure 02_image180
進行選擇,根據總投票值
Figure 02_image180
的大小選出C個投票勝出的匹配揚聲器作為最佳匹配揚聲器集合,進而獲得最佳匹配揚聲器集合的位置座標
Figure 02_image190
,
Figure 02_image192
A3,根據最佳匹配揚聲器集合的位置座標,計算最佳匹配揚聲器集合的HOA係數矩陣
Figure 02_image194
A4,根據最佳匹配揚聲器集合的HOA係數矩陣和,計算虛擬揚聲器訊號
Figure 02_image196
Figure 02_image198
其中,
Figure 02_image200
代表矩陣A的逆矩陣,矩陣A的大小為
Figure 02_image202
,C為投票勝出揚聲器個數,M為
Figure 02_image204
階的HOA係數的聲道個數M=
Figure 02_image206
,a表示最佳匹配揚聲器的HOA係數,例如,
Figure 02_image208
其中,X代表待編碼訊號的HOA係數,矩陣X的大小為(M×L),M為
Figure 02_image204
階的HOA係數的聲道個數,L為頻點個數,x表示待編碼訊號的HOA係數,例如,
Figure 02_image211
下面結合具體場景,對本申請實施例提供的編碼方法流程進行描述。以音訊編碼元件包括空間編碼器和核心編碼器為例。
B1,空間編碼器針對待編碼的HOA訊號進行空間編碼處理獲得當前幀的音訊通道訊號和當前幀的音訊通道的第一目標虛擬揚聲器的屬性資訊,並傳輸給核心編碼器。第一目標虛擬揚聲器的屬性資訊包括第一目標虛擬揚聲器的座標、序號或者HOA係數中的一項或者多項。
B2,核心編碼器針對音訊通道訊號進行核心編碼處理獲得碼流。
核心編碼處理可以包括且不限於變換、心理聲學模型處理、下混處理、頻寬擴展、量化和熵編碼等,核心編碼處理可以對頻域的音訊通道訊號進行處理也可以對時域的音訊通道訊號進行處理,此處不做限定。
下混處理採用的編碼參數可以包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數的一項或者多項。即在進行下混處理時,可以包括通道間配對處理、通道訊號調整處理、通道間位元分配處理等。
示例性地,參見圖5所示,為一種可能的編碼流程示意圖。
待編碼的HOA訊號經過空間編碼器處理後輸出當前幀的音訊通道訊號和當前幀的音訊通道的第一目標虛擬揚聲器的屬性資訊。以音訊通道訊號為時域訊號為例。核心編碼器對音訊通道訊號進行暫態檢測,然後對暫態檢測後的訊號進行加窗變換獲得頻域訊號。進一步針對頻域訊號進行雜訊整形處理獲得整形後的音訊通道訊號。然後對雜訊整形處理後的音訊通道訊號進行下混處理,可以包括通道間配對操作、通道訊號調整、通道間訊號位元分配操作。本申請實施例不對通道間配對操作、通道訊號調整、通道間訊號位元分配操作的處理先後順序進行具體限定。參見圖5所示,以先執行通道間配對處理,具體根據通道間配對參數來執行通道間配對處理,並將通道間配對參數和/或複用標識編入碼流。通道間配對參數可以根據當前幀的第一目標虛擬揚聲器的屬性資訊(第一目標虛擬揚聲器的座標、序號或者HOA係數)以及前一幀的第二目標虛擬揚聲器的屬性資訊(第二目標虛擬揚聲器的座標、序號或者HOA係數)確定當前幀的通道間配對參數是否複用前一幀的通道間配對參數。根據確定的當前幀的通道間配對參數對當前幀的雜訊整形處理後的音訊通道訊號進行通道間配對處理獲得配對後的音訊通道訊號。然後針對配對後的音訊通道訊號進行通道訊號調整,比如可以根據通道間聽覺空間參數對配對後的音訊通道訊號進行通道訊號調整獲得調整後的音訊通道訊號,並將通道間聽覺空間參數和/或複用標識編入碼流。通道間聽覺空間參數可以根據當前幀的第一目標虛擬揚聲器的屬性資訊(第一目標虛擬揚聲器的座標、序號或者HOA係數)以及前一幀的第二目標虛擬揚聲器的屬性資訊(第二目標虛擬揚聲器的座標、序號或者HOA係數)確定當前幀的通道間聽覺空間參數是否複用前一幀的通道間聽覺空間參數。進一步地,根據通道間位元分配參數對調整後的音訊通道訊號進行通道間位元分配處理,並將通道間位元分配參數和/或複用標識編入碼流。通道間位元分配參數可以根據當前幀的第一目標虛擬揚聲器的屬性資訊(第一目標虛擬揚聲器的座標、序號或者HOA係數)以及前一幀的第二目標虛擬揚聲器的屬性資訊(第二目標虛擬揚聲器的座標、序號或者HOA係數)確定當前幀的通道間位元分配參數是否複用前一幀的通道間位元分配參數。經過通道間位元分配處理後,可以進一步執行量化、熵編碼以及頻寬調整獲得碼流。
根據與上述方法相同的發明構思,本申請實施例提供一種音訊編碼裝置。參見圖6所示,音訊編碼裝置可以包括空間編碼單元601,用於獲得當前幀的音訊通道訊號,所述當前幀的音訊通道訊號是通過第一目標虛擬揚聲器對原始高階立體混響HOA訊號進行空間映射獲得的;核心編碼單元602,用於在確定所述第一目標虛擬揚聲器與所述當前幀的前一幀的音訊通道訊號對應的第二目標虛擬揚聲器滿足設定條件時,根據所述前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數;根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼並寫入碼流。
在一種可能的設計中,所述核心編碼單元602,還用於將所述第一編碼參數寫入碼流。
在一種可能的設計中,所述第一編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
在一種可能的設計中,所述設定條件包括所述第一空間位置與所述第二空間位置重疊;所述核心編碼單元602,具體用於將所述前一幀的音訊通道訊號的第二編碼參數作為所述當前幀的音訊通道訊號的第一編碼參數。
在一種可能的設計中,所述核心編碼單元602,還用於將複用標識寫入碼流,所述複用標識的取值為第一值,所述第一值指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。
在一種可能的設計中,所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標,所述第一空間位置與所述第二空間位置重疊包括所述第一座標與所述第二座標相同;或所述第一空間位置包括所述第一目標虛擬揚聲器的第一序號,所述第二空間位置包括所述第二目標虛擬揚聲器的第二序號,所述第一空間位置與所述第二空間位置重疊包括所述第一序號與所述第二序號相同;或所述第一空間位置包括所述第一目標虛擬揚聲器的第一HOA係數,所述第二空間位置包括所述第二目標虛擬揚聲器的第二HOA係數,所述第一空間位置與所述第二空間位置重疊包括所述第一HOA係數與所述第二HOA係數相同。
在一種可能的設計中,所述第一目標虛擬揚聲器包括M個虛擬揚聲器,所述第二目標虛擬揚聲器包括N個虛擬揚聲器;設定條件包括所述第一空間位置與所述第二空間位置不重疊且所述第一目標虛擬揚聲器包括的第m個虛擬揚聲器位於以所述第二目標虛擬揚聲器包括的第n個虛擬揚聲器為中心的設定範圍內,其中,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數;所述核心編碼單元602,具體用於按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
在一種可能的設計中,當所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標時,所述第m個虛擬揚聲器是否位於以所述第n個虛擬揚聲器為中心的設定範圍內通過所述第m個虛擬揚聲器與所述第n個虛擬揚聲器之間的相關度確定,其中,所述相關度滿足如下條件:
Figure 02_image001
其中,R表示相關度,
Figure 02_image003
表示歸一化運算,
Figure 02_image005
為當前幀的第一目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣,
Figure 02_image007
為前一幀的第二目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣的轉置;
當所述相關度大於設定值時,所述第m個虛擬揚聲器位於以所述第n個虛擬揚聲器為中心的設定範圍內,其中,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數。
在一種可能的設計中,所述核心編碼單元602,還用於將複用標識寫入碼流,所述複用標識的取值為第二值,所述第二值指示所述當前幀的音訊通道訊號的第一編碼參數通過按照設定比例調整所述第二編碼參數獲得。
在一種可能的設計中,所述核心編碼單元,還用於將所述設定比例寫入所述碼流。
根據與上述方法相同的發明構思,本申請實施例提供一種音訊解碼裝置。參見圖7所示,音訊解碼裝置可以包括核心解碼單元701,用於從碼流中解析複用標識,所述複用標識指示當前幀的音訊通道訊號的第一編碼參數通過所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定;根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數;根據所述第一編碼參數從所述碼流中解碼所述當前幀的音訊通道訊號;空間解碼單元702,用於對所述音訊通道訊號進行空間解碼獲得高階立體混響HOA訊號。
在一種可能的設計中,所述核心解碼單元701,具體用於當所述複用標識的取值為第一值時,所述第一值指示所述第一編碼參數複用所述第二編碼參數,獲得所述第二編碼參數作為所述第一編碼參數。
在一種可能的設計中,所述核心解碼單元701,具體用於當所述複用標識的取值為第二值時,所述第二值指示所述第一編碼參數通過按照設定比例調整所述第二編碼參數獲得,按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
在一種可能的設計中,所述核心解碼單元701,具體用於當所述複用標識的取值為第二值時,從所述碼流中解碼獲得所述設定比例。
在一種可能的設計中,所述音訊通道訊號的編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
示例性地,在解碼端,圖7中,核心解碼單元701的位置對應於圖2B中核心解碼器230的位置,換言之,核心解碼單元701的功能的具體實現可以參見圖2B中的核心解碼器230的具體細節。空間解碼單元702的位置對應於圖2B中空間解碼器240的位置,換言之,空間解碼單元702的功能的具體實現可以參見圖2B中空間解碼器240的具體細節。
示例性地,在編碼端,圖6中,空間編碼單元601的位置對應於圖2A中空間編碼器210的位置,換言之,空間編碼單元601的功能的具體實現可以參見圖2A中空間編碼器210的具體細節。核心編碼單元602的位置對應於圖2A中核心編碼器220的位置,換言之,核心編碼單元602的功能的具體實現可以參見圖2A中核心編碼器220的具體細節。
還需要說明的是,核心編碼單元602、核心編碼單元602的具體實現過程可參考圖3A、圖3B或者圖5實施例的詳細描述,為了說明書的簡潔,這裡不再贅述。
本領域技術人員能夠領會,結合本文公開描述的各種說明性邏輯框、模組和演算法步驟所描述的功能可以硬體、軟體、固件或其任何組合來實施。如果以軟體來實施,那麼各種說明性邏輯框、模組、和步驟描述的功能可作為一或多個指令或代碼在電腦可讀媒體上儲存或傳輸,且由根據硬體的處理單元執行。電腦可讀媒體可包含電腦可讀儲存媒體,其對應於有形媒體,例如資料儲存媒體,或包括任何促進將電腦程式從一處傳送到另一處的媒體(例如,根據通信協定)的通信媒體。以此方式,電腦可讀媒體大體上可對應於(1)非暫時性的有形電腦可讀儲存媒體,或(2)通信媒體,例如訊號或載波。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以檢索用於實施本申請中描述的技術的指令、代碼和/或資料結構的任何可用媒體。電腦程式產品可包含電腦可讀媒體。
作為實例而非限制,此類電腦可讀儲存媒體可包括RAM、ROM、EEPROM、CD-ROM或其它光碟儲存裝置、磁片儲存裝置或其它磁性儲存裝置、快閃記憶體或可用來儲存指令或資料結構的形式的所要程式碼並且可由電腦存取的任何其它媒體。並且,任何連接被恰當地稱作電腦可讀媒體。舉例來說,如果使用同軸纜線、光纖纜線、雙絞線、數位訂戶線(DSL)或例如紅外線、無線電和微波等無線技術從網站、伺服器或其它遠端源傳輸指令,那麼同軸纜線、光纖纜線、雙絞線、DSL或例如紅外線、無線電和微波等無線技術包含在媒體的定義中。但是,應理解,所述電腦可讀儲存媒體和資料儲存媒體並不包括連接、載波、訊號或其它暫時媒體,而是實際上針對於非暫時性有形儲存媒體。如本文中所使用,磁片和光碟包含壓縮光碟(CD)、鐳射光碟、光學光碟、數位多功能光碟(DVD)和藍光光碟,其中磁片通常以磁性方式再現資料,而光碟利用鐳射以光學方式再現資料。以上各項的組合也應包含在電腦可讀媒體的範圍內。
可通過例如一或多個數位訊號處理器(DSP)、通用微處理器、專用積體電路(ASIC)、現場可程式設計邏輯陣列(FPGA)或其它等效集成或離散邏輯電路等一或多個處理器來執行指令。因此,如本文中所使用的術語“處理器”可指前述結構或適合於實施本文中所描述的技術的任一其它結構中的任一者。另外,在一些方面中,本文中所描述的各種說明性邏輯框、模組、和步驟所描述的功能可以提供於經配置以用於編碼和解碼的專用硬體和/或軟體模組內,或者併入在組合轉碼器中。而且,所述技術可完全實施於一或多個電路或邏輯元件中。
本申請的技術可在各種各樣的裝置或設備中實施,包含無線手持機、積體電路(IC)或一組IC(例如,晶片組)。本申請中描述各種元件、模組或單元是為了強調用於執行所揭示的技術的裝置的功能方面,但未必需要由不同硬體單元實現。實際上,如上文所描述,各種單元可結合合適的軟體和/或固件組合在編碼解碼器硬體單元中,或者通過交互操作硬體單元(包含如上文所描述的一或多個處理器)來提供。
在上述實施例中,對各個實施例的描述各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
以上所述,僅為本申請示例性的具體實施方式,但本申請的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本申請揭露的技術範圍內,可輕易想到的變化或替換,都應涵蓋在本申請的保護範圍之內。因此,本申請的保護範圍應該以請求項的保護範圍為准。
100:音訊編碼及解碼系統 110:音訊編碼元件 120:音訊解碼元件 130、140:移動終端 131:音訊採集元件 132:通道編碼元件 141:音訊播放元件 142:通道解碼元件 150:網元 151:通道解碼元件 152:通道編碼元件 210:空間編碼器 220:核心編碼器 230:核心解碼器 240:空間解碼器 601:空間編碼單元 602:核心編碼單元 701:核心解碼單元 702:空間解碼單元 301、302、303、304a、304b、405a、405b、406a、406b、407a、407b、408b:步驟
圖1A為本申請實施例中一種音訊編碼及解碼系統100的示意性框圖; 圖1B為本申請實施例中音訊編碼及解碼流程的示意性框圖; 圖1C為本申請實施例中另一種音訊編碼及解碼系統示意性框圖; 圖1D為本申請實施例中又一種音訊編碼及解碼系統示意性框圖; 圖2A為本申請實施例中音訊編碼元件的結構示意圖; 圖2B為本申請實施例中音訊解碼元件的結構示意圖; 圖3A為本申請實施例中一種音訊編碼方法流程示意圖; 圖3B為本申請實施例中另一種音訊編碼方法流程示意圖; 圖4A為本申請實施例中一種音訊編解碼方法流程示意圖; 圖4B為本申請實施例中另一種音訊編解碼方法流程示意圖; 圖5為本申請實施例中音訊編碼流程示意性框圖; 圖6為本申請實施例中音訊編碼裝置示意圖; 圖7為本申請實施例中音訊解碼裝置示意圖。
301、302、303、304b:步驟

Claims (32)

  1. 一種音訊編碼方法,其中,包括: 獲得當前幀的音訊通道訊號,所述當前幀的音訊通道訊號是通過第一目標虛擬揚聲器對原始高階立體混響HOA訊號進行空間映射獲得的; 在確定所述第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件時,根據所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定所述當前幀的音訊通道訊號的第一編碼參數,所述前一幀的音訊通道訊號與所述第二目標虛擬揚聲器對應; 根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼; 將所述當前幀的音訊通道訊號的編碼結果寫入碼流。
  2. 如請求項1所述的方法,其中,所述方法還包括: 將所述第一編碼參數寫入碼流。
  3. 如請求項1或2所述的方法, 其中,所述第一編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
  4. 如請求項1-3任一項所述的方法,其中,所述設定條件包括所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置重疊; 所述根據所述前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,包括: 將所述前一幀的音訊通道訊號的第二編碼參數作為所述當前幀的音訊通道訊號的第一編碼參數。
  5. 如請求項4所述的方法,其中,所述方法還包括: 將複用標識寫入碼流,所述複用標識的取值為第一值,所述第一值指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。
  6. 如請求項4或5所述的方法,其中,所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標,所述第一空間位置與所述第二空間位置重疊包括所述第一座標與所述第二座標相同; 或 所述第一空間位置包括所述第一目標虛擬揚聲器的第一序號,所述第二空間位置包括所述第二目標虛擬揚聲器的第二序號,所述第一空間位置與所述第二空間位置重疊包括所述第一序號與所述第二序號相同; 或 所述第一空間位置包括所述第一目標虛擬揚聲器的第一HOA係數,所述第二空間位置包括所述第二目標虛擬揚聲器的第二HOA係數,所述第一空間位置與所述第二空間位置重疊包括所述第一HOA係數與所述第二HOA係數相同。
  7. 如請求項1-6任一項所述的方法,其中,所述第一目標虛擬揚聲器包括M個虛擬揚聲器,所述第二目標虛擬揚聲器包括N個虛擬揚聲器; 所述設定條件包括:所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置不重疊,且所述第一目標虛擬揚聲器包括的第m個虛擬揚聲器位於以所述第二目標虛擬揚聲器包括的第n個虛擬揚聲器為中心的設定範圍內,其中,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數; 所述根據所述前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,包括: 按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
  8. 如請求項7所述的方法,其中,當所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標時,所述第m個虛擬揚聲器是否位於以所述第n個虛擬揚聲器為中心的設定範圍內通過所述第m個虛擬揚聲器與所述第n個虛擬揚聲器之間的相關度確定,其中,所述相關度滿足如下條件:
    Figure 03_image001
    其中,R表示相關度,
    Figure 03_image003
    表示歸一化運算,
    Figure 03_image005
    為當前幀的第一目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣,
    Figure 03_image007
    為前一幀的第二目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣的轉置; 當所述相關度大於設定值時,所述第m個虛擬揚聲器位於以所述第n個虛擬揚聲器為中心的設定範圍內。
  9. 如請求項7或8所述的方法,其中,所述方法還包括: 將複用標識寫入碼流,所述複用標識的取值為第二值,所述第二值指示所述當前幀的音訊通道訊號的第一編碼參數通過按照設定比例調整所述第二編碼參數獲得。
  10. 如請求項7-9任一項所述的方法,其中,所述方法還包括:將所述設定比例寫入所述碼流。
  11. 一種音訊解碼方法,其中,包括: 從碼流中解析複用標識,所述複用標識指示當前幀的音訊通道訊號的第一編碼參數通過所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定; 根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數; 根據所述第一編碼參數從所述碼流中解碼所述當前幀的音訊通道訊號。
  12. 如請求項11所述的方法,其中,根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數,包括: 當所述複用標識的取值為第一值時,所述第一值指示所述第一編碼參數複用所述第二編碼參數,獲得所述第二編碼參數作為所述第一編碼參數。
  13. 如請求項11或12所述的方法,其中,根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數,包括: 當所述複用標識的取值為第二值時,所述第二值指示所述第一編碼參數通過按照設定比例調整所述第二編碼參數獲得,按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
  14. 如請求項13所述的方法,其中,所述方法還包括: 當所述複用標識的取值為第二值時,從所述碼流中解碼獲得所述設定比例。
  15. 如請求項11-14任一項所述的方法,其中,所述音訊通道訊號的編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
  16. 一種音訊編碼裝置,其中,包括: 空間編碼單元,用於獲得當前幀的音訊通道訊號,所述當前幀的音訊通道訊號是通過第一目標虛擬揚聲器對原始高階立體混響HOA訊號進行空間映射獲得的; 核心編碼單元,用於在確定所述第一目標虛擬揚聲器與第二目標虛擬揚聲器滿足設定條件時,根據所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定當前幀的音訊通道訊號的第一編碼參數,所述前一幀的音訊通道訊號與所述第二目標虛擬揚聲器對應;根據所述第一編碼參數對所述當前幀的音訊通道訊號進行編碼,並將所述當前幀的音訊通道訊號的編碼結果寫入碼流。
  17. 如請求項16所述的裝置,其中,所述核心編碼單元,還用於將所述第一編碼參數寫入碼流。
  18. 如請求項16或17所述的裝置, 其中,所述第一編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
  19. 如請求項16-18任一項所述的裝置,其中,所述設定條件包括所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置重疊; 所述核心編碼單元,具體用於將所述前一幀的音訊通道訊號的第二編碼參數作為所述當前幀的音訊通道訊號的第一編碼參數。
  20. 如請求項19所述的裝置,其中,所述核心編碼單元,還用於將複用標識寫入碼流,所述複用標識的取值為第一值,所述第一值指示所述當前幀的音訊通道訊號的第一編碼參數複用所述第二編碼參數。
  21. 如請求項19或20所述的裝置,其中,所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標,所述第一空間位置與所述第二空間位置重疊包括所述第一座標與所述第二座標相同; 或 所述第一空間位置包括所述第一目標虛擬揚聲器的第一序號,所述第二空間位置包括所述第二目標虛擬揚聲器的第二序號,所述第一空間位置與所述第二空間位置重疊包括所述第一序號與所述第二序號相同; 或 所述第一空間位置包括所述第一目標虛擬揚聲器的第一HOA係數,所述第二空間位置包括所述第二目標虛擬揚聲器的第二HOA係數,所述第一空間位置與所述第二空間位置重疊包括所述第一HOA係數與所述第二HOA係數相同。
  22. 如請求項16-21任一項所述的裝置,其中,所述第一目標虛擬揚聲器包括M個虛擬揚聲器,所述第二目標虛擬揚聲器包括N個虛擬揚聲器; 所述設定條件包括所述第一目標虛擬揚聲器的第一空間位置與所述第二目標虛擬揚聲器的第二空間位置不重疊且所述第一目標虛擬揚聲器包括的第m個虛擬揚聲器位於以所述第二目標虛擬揚聲器包括的第n個虛擬揚聲器為中心的設定範圍內,其中,m遍歷小於或者等於M的正整數,n遍歷小於或者等於N的正整數; 所述核心編碼單元,具體用於按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
  23. 如請求項22所述的裝置,其中,當所述第一空間位置包括所述第一目標虛擬揚聲器的第一座標,所述第二空間位置包括所述第二目標虛擬揚聲器的第二座標時,所述第m個虛擬揚聲器是否位於以所述第n個虛擬揚聲器為中心的設定範圍內通過所述第m個虛擬揚聲器與所述第n個虛擬揚聲器之間的相關度確定,其中,所述相關度滿足如下條件:
    Figure 03_image001
    其中,R表示相關度,
    Figure 03_image003
    表示歸一化運算,
    Figure 03_image005
    為當前幀的第一目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣,
    Figure 03_image007
    為前一幀的第二目標虛擬揚聲器包括的虛擬揚聲器的座標組成的矩陣的轉置; 當所述相關度大於設定值時,所述第m個虛擬揚聲器位於以所述第n個虛擬揚聲器為中心的設定範圍內。
  24. 如請求項22或23所述的裝置,其中,所述核心編碼單元,還用於將複用標識寫入碼流,所述複用標識的取值為第二值,所述第二值指示所述當前幀的音訊通道訊號的第一編碼參數通過按照設定比例調整所述第二編碼參數獲得。
  25. 如請求項22-24任一項所述的裝置,其中,所述核心編碼單元,還用於將所述設定比例寫入所述碼流。
  26. 一種音訊解碼裝置,其中,包括: 核心解碼單元,用於從碼流中解析複用標識,所述複用標識指示當前幀的音訊通道訊號的第一編碼參數通過所述當前幀的前一幀的音訊通道訊號的第二編碼參數確定;根據所述前一幀的音訊通道訊號的第二編碼參數確定所述第一編碼參數;根據所述第一編碼參數從所述碼流中解碼所述當前幀的音訊通道訊號; 空間解碼單元,用於對所述音訊通道訊號進行空間解碼獲得高階立體混響HOA訊號。
  27. 如請求項26所述的裝置,其中,所述核心解碼單元,具體用於當所述複用標識的取值為第一值時,所述第一值指示所述第一編碼參數複用所述第二編碼參數,獲得所述第二編碼參數作為所述第一編碼參數。
  28. 如請求項26或27所述的裝置,其中,所述核心解碼單元,具體用於當所述複用標識的取值為第二值時,所述第二值指示所述第一編碼參數通過按照設定比例調整所述第二編碼參數獲得,按照設定比例調整所述第二編碼參數獲得所述第一編碼參數。
  29. 如請求項28所述的裝置,其中,所述核心解碼單元,具體用於當所述複用標識的取值為第二值時,從所述碼流中解碼獲得所述設定比例。
  30. 如請求項26-29任一項所述的裝置,其中,所述音訊通道訊號的編碼參數包括通道間配對參數、通道間聽覺空間參數或者通道間位元分配參數中的一項或者多項。
  31. 一種音訊編碼設備,其中,包括:相互耦合的非易失性記憶體和處理器,所述處理器調用儲存在所述記憶體中的程式碼以執行如請求項1-10任一項所述的方法。
  32. 一種音訊解碼設備,其中,包括:相互耦合的非易失性記憶體和處理器,所述處理器調用儲存在所述記憶體中的程式碼以執行如請求項11-15任一項所述的方法。
TW111114429A 2021-05-14 2022-04-15 一種音訊編碼、解碼方法及裝置 TW202248995A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110530309.1A CN115346537A (zh) 2021-05-14 2021-05-14 一种音频编码、解码方法及装置
CN202110530309.1 2021-05-14

Publications (1)

Publication Number Publication Date
TW202248995A true TW202248995A (zh) 2022-12-16

Family

ID=83947091

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111114429A TW202248995A (zh) 2021-05-14 2022-04-15 一種音訊編碼、解碼方法及裝置

Country Status (5)

Country Link
US (1) US20240079016A1 (zh)
EP (1) EP4318470A1 (zh)
CN (1) CN115346537A (zh)
TW (1) TW202248995A (zh)
WO (1) WO2022237851A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
CN108206984B (zh) * 2016-12-16 2019-12-17 南京青衿信息科技有限公司 利用多信道传输三维声信号的编解码器及其编解码方法
CN109300480B (zh) * 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN110556118B (zh) * 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置

Also Published As

Publication number Publication date
EP4318470A1 (en) 2024-02-07
CN115346537A (zh) 2022-11-15
WO2022237851A1 (zh) 2022-11-17
US20240079016A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
US20240119950A1 (en) Method and apparatus for encoding three-dimensional audio signal, encoder, and system
US20230298600A1 (en) Audio encoding and decoding method and apparatus
US20230298601A1 (en) Audio encoding and decoding method and apparatus
WO2022237851A1 (zh) 一种音频编码、解码方法及装置
WO2022257824A1 (zh) 一种三维音频信号的处理方法和装置
TWI834163B (zh) 三維音頻訊號編碼方法、裝置和編碼器
WO2022262758A1 (zh) 音频渲染系统、方法和电子设备
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
US20240079017A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
WO2022050087A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
WO2022262750A1 (zh) 音频渲染系统、方法和电子设备
JP2024517503A (ja) 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ
EP3987824A1 (en) Audio rendering for low frequency effects
CN115376528A (zh) 三维音频信号编码方法、装置和编码器