TWI691953B - 時域立體聲參數的編碼方法和相關產品 - Google Patents

時域立體聲參數的編碼方法和相關產品 Download PDF

Info

Publication number
TWI691953B
TWI691953B TW107120265A TW107120265A TWI691953B TW I691953 B TWI691953 B TW I691953B TW 107120265 A TW107120265 A TW 107120265A TW 107120265 A TW107120265 A TW 107120265A TW I691953 B TWI691953 B TW I691953B
Authority
TW
Taiwan
Prior art keywords
current frame
channel
signal
channel combination
correlation
Prior art date
Application number
TW107120265A
Other languages
English (en)
Other versions
TW201911293A (zh
Inventor
李海婷
王賓
苗磊
Original Assignee
大陸商華為技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商華為技術有限公司 filed Critical 大陸商華為技術有限公司
Publication of TW201911293A publication Critical patent/TW201911293A/zh
Application granted granted Critical
Publication of TWI691953B publication Critical patent/TWI691953B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Television Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申請實施例公開了時域立體聲參數的編碼方法和相關產品。一種時域立體聲參數的編碼方法,包括:確定當前幀的聲道組合方案;根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數;對確定的所述當前幀的時域立體聲參數進行編碼,所述時域立體聲參數包括聲道組合比例因數和聲道間時間差中的至少一種。本申請實施例提供的技術方案有利於提高編解碼品質。

Description

時域立體聲參數的編碼方法和相關產品
本申請涉及音訊編解碼技術領域,尤其涉及時域立體聲參數的編碼方法和相關產品。
隨著生活品質的提高,人們對高品質音訊的需求不斷增大。相對於單聲道音訊,立體聲音訊具有各聲源的方位感和分佈感,能夠提高資訊的清晰度、可懂度和臨場感,因而備受人們青睞。
參數立體聲編解碼技術通過將立體聲信號轉換為單聲道信號和空間感知參數,對多聲道信號進行壓縮處理,是一種常見的立體聲編解碼技術。但是由於參數立體聲編解碼技術通常需要在頻域提取空間感知參數,需進行時頻變換,使得整個轉碼器的時延相對較大。因此在時延要求較嚴格的情況下,時域立體聲編碼技術,是一種更好的選擇。
傳統時域立體聲編碼技術是在時域將信號下混為兩路單聲道信號,例如MS編碼技術先將左右聲道信號下混為中央通道(Mid channel)信號和邊通道(Side channel)信號。例如L表示左聲道信號,R表示右聲道信號,則Mid channel信號為0.5*(L+R),Mid channel信號表徵了左右兩個聲道之間的相關資訊;Side channel信號為0.5*(L-R),Side channel信號表徵了左右兩個聲道之間的差異資訊。 然後,分別對Mid channel信號和Side channel信號採用單聲道編碼方法編碼,對於Mid channel信號,通常用相對較多比特數進行編碼;對於Side channel信號,通常用相對較少比特數。
本申請發明人研究和實踐發現,採用傳統時域立體聲編碼技術有時候出現主要信號能量特別小甚至能量缺失的現象,進而導致最終編碼品質下降。
本申請實施例提供時域立體聲參數的編碼方法和相關產品。
第一方面,本申請實施例提供了一種時域立體聲參數的編碼方法包括:確定當前幀的聲道組合方案;根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數;對確定的所述當前幀的時域立體聲參數進行編碼,所述時域立體聲參數包括聲道組合比例因數和聲道間時間差中的至少一種。
本申請實施例還提供一種時域立體聲參數的確定方法,可包括:確定當前幀的聲道組合方案;根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數,所述時域立體聲參數包括聲道組合比例因數和聲道間時間差中的至少一種。
其中,當前幀的立體聲信號例如由當前幀的左右聲道信號組成。
其中,所述當前幀的聲道組合方案為多種聲道組合方案中的其中一種。
其中,例如所述多種聲道組合方案包括非相關性信號聲道組合方案(anticorrelated signal Channel Combination Scheme)和相關性信號聲道組合方案(correlated signal Channel Combination Scheme)。
其中,所述相關性信號聲道組合方案為類正相信號對應的聲道組合方案。所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。可 以理解,類正相信號對應的聲道組合方案適用於類正相信號,類反相信號對應的聲道組合方案適用於類反相信號。
在確定所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;在確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。
可以理解,上述方案中需確定當前幀的聲道組合方案,這就表示當前幀的聲道組合方案存在多種可能,這相對於只有唯一一種聲道組合方案的傳統方案而言,多種可能的聲道組合方案和多種可能場景之間有利於獲得更好的相容匹配效果。由於是根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數,這使得時域立體聲參數和多種可能場景之間有利於獲得更好的相容匹配效果,進而有利於提升編解碼品質。
在一些可能實施方式中,可以先分別計算出當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數和當前幀的相關性信號聲道組合方案對應的聲道組合比例因數。而後在確定當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;或者,在確定當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定當前幀的時域立體聲參數為所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。或者,也可先計算出當前幀的相關性信號聲道組合方案對應的時域立體聲參數,在確定當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;而在確定當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,再計算所述 當前幀的非相關性信號聲道組合方案對應的時域立體聲參數,將計算出的所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數,確認為當前幀的時域立體聲參數。
或者,也可先確定當前幀的聲道組合方案,在確定所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,計算所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數,那麼,當前幀的時域立體聲參數為當前幀的相關性信號聲道組合方案對應的時域立體聲參數。而在確定當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,計算所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數,那麼,當前幀的時域立體聲參數為當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。
在一些可能實施方式中,根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數包括:根據所述當前幀的聲道組合方案,確定所述當前幀的聲道組合方案所對應的聲道組合比例因數初始值。在無需對所述當前幀的聲道組合方案(相關性信號聲道組合方案或非相關性信號聲道組合方法)對應的聲道組合比例因數的初始值進行修正的情況之下,所述當前幀的聲道組合方案對應的聲道組合比例因數,等於所述當前幀的聲道組合方案對應的聲道組合比例因數的初始值。在需對所述當前幀的聲道組合方案(相關性信號聲道組合方案或非相關性信號聲道組合方法)對應的聲道組合比例因數的初始值進行修正的情況之下,對所述當前幀的聲道組合方案對應的聲道組合比例因數的初始值進行修正,以得到所述當前幀的聲道組合方案對應的聲道組合比例因數的修正值,所述當前幀的聲道組合方案對應的聲道組合比例因數,等於所述當前幀的聲道組合方案對應的聲道組合比例因數的修正值。
舉例來說,所述根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數可以包括:根據所述當前幀左聲道信號計算所述當前幀的左聲 道信號的幀能量;根據所述當前幀右聲道信號計算所述當前幀的右聲道信號的幀能量;根據所述當前幀左聲道信號的幀能量和右聲道信號的幀能量,計算所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值;
其中,在無需對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正的情況下,所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數初始值,所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值的編碼索引;
在需對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正的情況下,對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值及其編碼索引進行修正,以得到所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值及其編碼索引,所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值;所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值的編碼索引。
具體例如,在對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值及其編碼索引進行修正的情況下,ratio_idx_mod=0.5*(tdm_last_ratio_idx+16);ratio_mod qua=ratio_tabl[ratio_idx_mod];其中,所述tdm_last_ratio_idx表示前一幀的相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引,所述ratio_idx_mod表示所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值對應的編碼索引,所 述ratio_mod qua表示所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值。
又例如,根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數包括:根據所述當前幀的左聲道信號和右聲道信號獲得所述當前幀的參考聲道信號;計算所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數;計算所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數;根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數;根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,例如可包括:根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值;對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值進行修正,以得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。可以理解,當無需對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值進行修正時,那麼,所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,等於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值。
在一些可能的實施方式中,
Figure 107120265-A0305-02-0008-1
Figure 107120265-A0305-02-0009-2
其中,其中,所述mono_i(n)表示所述當前幀的參考聲道信號。
其中,所述
Figure 107120265-A0305-02-0009-180
表示所述當前幀經時延對齊處理的左聲道信號;所述
Figure 107120265-A0305-02-0009-181
表示所述當前幀經時延對齊處理的右聲道信號。所述corr_LM表示所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數,所述corr_RM表示所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數。
在一些可能的實施方式中,所述根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數,包括:根據當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀左右聲道之間的幅度相關性差異參數。
其中,平滑處理的方式可以是多樣多樣的,舉例來說: tdm_lt_corr_LM_SM cur=α*tdm_lt_corr_LM_SM pre+(1-α)corr_LM;其中,tdm_lt_rms_L_SM cur=(1-A)*tdm_lt_rms_L_SM pre+A*rms_L,所述A表示所述當前幀的左聲道信號的長時平滑幀能量的更新因數。所述tdm_lt_rms_L_SM cur 表示所述當前幀的左聲道信號的長時平滑幀能量;其中,所述rms_L表示所述當前幀左聲道信號的幀能量。tdm_lt_corr_LM_SM cur表示當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數。tdm_lt_corr_LM_SM pre表示前一幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數。α表示左聲道平滑因數。
舉例來說,tdm_lt_corr_RM_SM cur=β*tdm_lt_corr_RM_SM pre+(1-β)corr_LM。其中,tdm_lt_rms_R_SM cur=(1-B)*tdm_lt_rms_R_SM pre+B*rms_R;所述B表示所述當前幀的右聲道信號的長時平滑幀能量的更新因數。所述tdm_lt_rms_R_SM pre表示所述當前幀的右聲道信號的長時平滑幀能量。其中,所述rms_R表示所述當前幀右聲道信號的幀能量。其中,tdm_lt_corr_RM_SM cur表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數。tdm_lt_corr_RM_SM pre表示前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數。β表示右聲道平滑因數。
在一些可能的實施方式中,diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;其中,tdm_lt_corr_LM_SM表示所述當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,所述diff_lt_corr表示所述當前幀左右聲道信號之間的幅度相關性差異參數。
在一些可能的實施方式中,所述根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數包括:對當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理,使映射處理後的所述當前幀的左右聲道信號之間的幅度相關 性差異參數的取值範圍在[MAP_MIN,MAP_MAX]之間;將映射處理後的左右聲道信號之間的幅度相關性差異參數轉換為聲道組合比例因數。
在一些可能的實施方式中,對所述當前幀的左右聲道之間的幅度相關性差異參數進行映射處理包括:對所述當前幀的左右聲道信號之間的幅度相關性差異參數進行限幅處理;對經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理。
其中,限幅處理的方式可以是多種多樣的,具體例如:
Figure 107120265-A0305-02-0011-3
其中,RATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_MIN表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值,RATIO_MAX>RATIO_MIN
其中,映射處理的方式可以是多種多樣的,具體例如:
Figure 107120265-A0305-02-0011-4
其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數; 其中,MAP_MAX表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值;MAP_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限;MAP_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限;MAP_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值; 其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MINRATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限,RATIO_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限,RATIO_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值; 其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN
又例如,
Figure 107120265-A0305-02-0012-5
其中,diff_lt_corr_limit表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數。
其中,
Figure 107120265-A0305-02-0012-6
其中,所述RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度 相關性差異參數的最大幅度,所述-RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小幅度。
在一些可能的實施方式中,
Figure 107120265-A0305-02-0013-7
其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數。所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,或所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值。
其中,在需要通過對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正,來得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的情況下,例如可以基於前一幀的聲道組合比例因數和所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值,來對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正;或者,也可基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值,對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正。
在一些可能的實施方式中, ratio_init_SM qua=ratio_tabl_SM[ratio_idx_init_SM]。
其中,所述ratio_tabl_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數標量量化的碼書,所述ratio_idx_init_SM表示所述當前幀的非相關性信號聲道組合方案對應的初始編碼索引,所述ratio_init_SM qua表示當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的量化編碼初始值。
在一些可能的實施方式中, ratio_idx_SM=ratio_idx_init_SM
ratio_SM=ratio_tabl[ratio_idx_SM]。
其中,所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。ratio_idx_SM表示當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引;或者,
Figure 107120265-A0305-02-0014-177
ratio_SM=ratio_tabl[ratio_idx_SM]
其中,ratio_idx_init_SM表示所述當前幀的非相關性信號聲道組合方案對應的初始編碼索引,tdm_last_ratio_idx_SM表示前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數的最終編碼索引,其中,φ為非相關性信號聲道組合方案對應的聲道組合比例因數的修正因數。其中,所述ratio_SM表示當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
當然,通過對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正,來得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的具體實現方式並不限於上述舉例。
此外,在時域立體聲參數包括聲道間時間差的情況下,根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數可包括:在所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,計算所述當前幀的聲道間時間差。並且可將計算得到的所述當前幀的聲道間時間差寫入碼流。在所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下使用預設的聲道間時間差(例如0)作為所述當前幀的聲道間時間差。並且可不將默認的聲道間時間差寫入碼流,解碼裝置也使用預設的聲道間時間差。
第二方面,本申請實施例還提供一種時域立體聲參數的編碼裝置,可以包括:相互耦合的處理器和記憶體。其中,所述處理器可用於執行第一方面中的任意一種方法的部分或全部步驟。本申請實施例還提供一種時域立體聲編碼裝置,可以包括上述時域立體聲參數的編碼裝置。
協力廠商面,本申請實施例提供一種時域立體聲參數的編碼裝置,包括用於實施第一方面的任意一種方法的若干個功能單元。
第四方面,本申請實施例提供一種電腦可讀存儲器,所述電腦可讀存儲器存儲了程式碼,其中,所述程式碼包括用於執行第一方面的任意一種方法的部分或全部步驟的指令。
第五方面,本申請實施例提供一種電腦程式產品,當所述電腦程式產品在電腦上運行時,使得所述電腦執行第一方面的任意一種方法的部分或全部步驟。
201~203、301、302、401~403、501~503、601~603、701~703、801~803、901~912、9081~9085、90841、90842、90851~90853、1001~1005:步驟
1100:裝置
1110:處理器
1120:記憶體
1130:收發器
1140:麥克風
1150:模數轉換器
1160:揚聲器
1170:數模轉換器
1200:裝置
1210:第一確定單元
1220:編碼單元
1230:第二確定單元
1240:第三確定單元
1250:解碼單元
第1圖是本申請實施例提供的一種類反相信號的示意圖;第2圖是本申請實施例提供的一種音訊編碼方法的流程示意圖;第3圖是本申請實施例提供的一種音訊解碼模式確定方法的流程示意圖;第4圖是本申請實施例提供的另一種音訊編碼方法的流程示意圖;第5圖是本申請實施例提供的一種音訊解碼方法的流程示意圖;第6圖是本申請實施例提供的另一種音訊編碼方法的流程示意圖;第7圖是本申請實施例提供的另一種音訊解碼方法的流程示意圖;第8圖是本申請實施例提供的一種時域立體聲參數的確定方法的流程示意圖; 第9-A圖是本申請實施例提供的另一種音訊編碼方法的流程示意圖;第9-B圖是本申請實施例提供的一種計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數並編碼的方法的流程示意圖;第9-C圖是本申請實施例提供的一種計算當前幀左右聲道之間的幅度相關性差異參數的方法的流程示意圖;第9-D圖是本申請實施例提供的一種將當前幀左右聲道之間的幅度相關性差異參數轉換為聲道組合比例因數的方法的流程示意圖;第10圖是本申請實施例提供的另一種音訊解碼方法的流程示意圖;第11-A圖是本申請實施例提供的一種裝置的示意圖;第11-B圖是本申請實施例提供的另一種裝置的示意圖;第11-C圖是本申請實施例提供的另一種裝置的示意圖;第12-A圖是本申請實施例提供的另一種裝置的示意圖;第12-B圖是本申請實施例提供的另一種裝置的示意圖;第12-C圖是本申請實施例提供的另一種裝置的示意圖。
下面結合本申請實施例中的附圖對本申請實施例進行描述。
本申請的說明書和申請專利範圍以及上述附圖之中的術語“包括” 和“具有”以及它們的任何變形,意圖在於覆蓋不排他的包括。例如包括一系列步驟或單元的過程、方法、系統或產品或設備沒有限定於已列出的步驟或單元,而是可選地還可包括沒有列出的步驟或單元,或者可選地還包括對於這些過程、方法、產品或設備固有的其它步驟或單元。另外來說,術語“第一”、“第二”、“第三”和“第四”等是用於區別不同物件,而不是用於描述特定順序。
需要說明,由於本申請各實施例方案針對的時域場景,因此為了簡化描述,時域信號可簡稱“信號”。例如,左聲道時域信號可簡稱“左聲道信號”。又例如,右聲道時域信號可以簡稱“右聲道信號”。又例如,單聲道時域信號可簡稱“單聲道信號”。又例如參考聲道時域信號可簡稱“參考聲道信號”。又例如主要聲道時域信號可簡稱“主要聲道信號”。次要聲道時域信號可簡稱“次要聲道信號”。又例如中央通道(Mid channel)時域信號可以簡稱“中央通道信號”。又例如邊通道(Side channel)時域信號可簡稱“邊通道信號”。 其他情況可以此類推。
需要說明,本申請各實施例中,左聲道時域信號和右聲道時域信號可合稱“左右聲道時域信號”或可合稱“左右聲道信號”。也就是說,左右聲道時域信號包括左聲道時域信號和右聲道時域信號。又例如當前幀經時延對齊處理的左右聲道時域信號包括當前幀經時延對齊處理的左聲道時域信號和當前幀經時延對齊處理的右聲道時域信號。類似的,主要聲道信號和次要聲道信號可合稱“主次聲道信號”。也就是說,主次聲道信號包括主要聲道信號和次要聲道信號。又例如主次聲道解碼信號包括主要聲道解碼信號和次要聲道解碼信號。又例如左右聲道重建信號包括左聲道重建信號和右聲道重建信號。以此類推。
其中,例如傳統MS編碼技術先將左右聲道信號下混為中央通道(Mid channel)信號和邊通道(Side channel)信號。例如L表示左聲道信號,R表示右聲道信號,則Mid channel信號為0.5*(L+R),Mid channel信號表徵了左右兩個聲道之間的相關資訊。Side channel信號為0.5*(L-R),Side channel信號表徵了左右兩個聲道之間的差異資訊。然後,分別對Mid channel信號和Side channel信號採用單聲道編碼方法編碼。其中,對於Mid channel信號,通常用相對較多比特數進行編碼;對於Side channel信號,通常用相對較少比特數進行編碼。
進一步的,為了提高編碼品質,一些方案通過對左右聲道的時域信號進行分析,提取用於指示時域下混處理中左右聲道所占比例的時域立體聲參數。提出這種方法的目的是:當立體聲左右聲道信號之間的能量相差比較大的時候,有利於提升時域下混信號中的主要聲道的能量,降低次要聲道的能量。 例如,L表示左聲道信號,R表示右聲道信號,那麼,則主要聲道(Primary channel)信號記作Y,Y=alpha*L+beta*R,其中,Y表徵了兩個聲道之間的相關資訊。次要聲道(Secondary channel)記作X,X=alpha*L-beta*R,X表徵了兩個聲道之間的差異資訊。alpha和beta為0到1的實數。
參見第1圖,第1圖示出了一種左聲道信號和右聲道信號的幅度變化情況。在時域某一時刻上,左聲道信號、右聲道信號的對應樣點之間幅度的絕對值基本相同,但是符號相反,這種就是典型的類反相信號。第1圖只是給出了類反相信號的一個典型例子。實際上類反相信號是指左右聲道信號之間的相位差接近180度的立體聲信號。例如可將左右聲道信號之間的相位差屬於[180-θ,180+θ]的立體聲信號稱作類反相信號,其中,θ可取0°到90°之間的任意角度,例如θ可等於0°、5°、15°、17°、20°、30°、40°等角度。
類似的,類正相信號是指左右聲道信號之間的相位差接近0度的立體聲信號。例如可將左右聲道信號之間的相位差屬於[-θ,θ]的立體聲信號稱作類正相信號。θ可取0°到90°之間的任意角度,例如θ可等於0°、5°、15°、17°、20°、30°、40°等角度。
當左右聲道信號為類正相信號時,時域下混處理生成的主要聲道信號能量往往明顯大於次要聲道信號的能量。若用較多的比特數對主要聲道信號進行編碼,同時用較少的比特數對次要聲道信號進行編碼,那麼有利於獲得較好的編碼效果。但是,當左右聲道信號為類反相信號時,如果採用相同的時域下混處理方法,則生成的主要聲道信號能量會出現特別小甚至能量缺失的現 象,進而導致最終編碼品質下降。
下面繼續探討一些有利於提升立體聲編解碼品質的技術方案。
本申請實施例提及的編碼裝置和解碼裝置可為具有採集、存儲、向外傳輸話音信號等功能的裝置,具體的,編碼裝置和解碼裝置例如可為手機、伺服器、平板電腦、個人電腦或筆記型電腦等等。
可以理解,本申請方案中,左右聲道信號是指立體聲信號的左右聲道信號。立體聲信號可以是原始的立體聲信號,也可以是多聲道信號中包含的兩路信號組成的立體聲信號,還可以是由多聲道信號中包含的多路信號聯合產生的兩路信號組成的立體聲信號。其中,立體聲編碼方法,也可以是多聲道編碼中使用的立體聲編碼方法。立體聲編碼裝置,也可以是多聲道編碼裝置中使用的立體聲編碼裝置。立體聲解碼方法,也可以是多聲道解碼中使用的立體聲解碼方法。立體聲解碼裝置,也可以是多聲道解碼裝置中使用的立體聲解碼裝置。 本申請實施例中的音訊編碼方法例如針對的是立體聲編碼場景,本申請實施例中的音訊解碼方法例如針對的是立體聲解碼場景。
下面首先提供一種音訊編碼模式確定方法,可包括:確定當前幀的聲道組合方案,基於前一幀和當前幀的聲道組合方案確定當前幀的編碼模式。
參見第2圖,第2圖是本申請實施例提供的一種音訊編碼方法的流程示意圖。一種音訊編碼方法的相關步驟可由編碼裝置來實施,例如可包括如下步驟:201、確定當前幀的聲道組合方案。
其中,所述當前幀的聲道組合方案為多種聲道組合方案中的其中一種。例如所述多種聲道組合方案包括非相關性信號聲道組合方案(anticorrelated signal Channel Combination Scheme)和相關性信號聲道組合方案(correlatedsignal Channel Combination Scheme)。其中,所述相關性信號聲道組合方案為類正相信 號對應的聲道組合方案。所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。可以理解,類正相信號對應的聲道組合方案適用於類正相信號,類反相信號對應的聲道組合方案適用於類反相信號。
202、基於前一幀和當前幀的聲道組合方案確定當前幀的編碼模式。
此外,若當前幀為第一幀(即不存在當前幀的前一幀)的情況下,可以基於當前幀的聲道組合方案確定當前幀的編碼模式。或者,也可以將預設的某種編碼模式作為當前幀的編碼模式。
其中,所述當前幀的編碼模式為多種編碼模式中的其中一種。例如所述多種編碼模式可包括:相關性信號到非相關性信號編碼模式(correlated-to-anticorrelatedsignal coding switching mode)、非相關性信號到相關性信號編碼模式(anticorrelated-to-correlated signal coding switching mode)、相關性信號編碼模式(correlatedsignal coding mode))和非相關性信號編碼模式(anticorrelated signal coding mode)等。
其中,相關性信號到非相關性信號編碼模式對應的時域下混模式例如可稱為“相關性信號到非相關性信號下混模式”(correlated-to-anticorrelated signal downmix switching mode)。非相關性信號到相關性信號編碼模式對應的時域下混模式例如可稱為“非相關性信號到相關性信號下混模式”(anticorrelated-to-correlated signal downmix switching mode)。相關性信號編碼模式對應的時域下混模式例如可稱為“相關性信號下混模式”(correlated signal downmix mode)。非相關性信號編碼模式對應的時域下混模式例如可稱為“非相關性信號下混模式”(anticorrelated signal downmix mode)。
可以理解,本申請實施例中對編碼模式、解碼模式和聲道組合方案等物件的命名都是示意性的,在實際應用中也可能選用其他名稱。
203、基於當前幀的編碼模式所對應的時域下混處理對當前幀的左右 聲道信號進行時域下混處理,以得到當前幀的主次聲道信號。
其中,對當前幀的左右聲道信號進行時域下混處理可得到當前幀的主次聲道信號,通過進一步對主次聲道信號進行編碼以得到碼流。可進一步將當前幀的聲道組合方案標識(當前幀的聲道組合方案標識用於指示當前幀的聲道組合方案)寫入碼流,以便於解碼裝置基於碼流中包含的當前幀的聲道組合方案標識來確定當前幀的聲道組合方案。
其中,根據前一幀的聲道組合方案和所述當前幀的聲道組合方案確定所述當前幀的編碼模式的具體實現方式可以是多種多樣的,具體例如,在一些可能的實施方式中,根據前一幀的聲道組合方案和所述當前幀的聲道組合方案確定所述當前幀的編碼模式,可包括:在前一幀的聲道組合方案為相關性信號聲道組合方案,並且當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定所述當前幀的編碼模式為相關性信號到非相關性信號編碼模式,其中,相關性信號到非相關性信號編碼模式採用從相關性信號聲道組合方案過渡到非相關性信號聲道組合方案對應的下混處理方法進行時域下混處理。
或者,在前一幀的聲道組合方案為非相關性信號聲道組合方案,並且所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定所述當前幀的編碼模式為非相關性信號編碼模式,所述非相關性信號編碼模式採用非相關性信號聲道組合方案對應的下混處理方法進行時域下混處理。
或者,在前一幀的聲道組合方案為非相關性信號聲道組合方案,並且當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定所述當前幀的編碼模式為非相關性信號到相關性信號編碼模式,所述非相關性信號到相關性信號編碼模式採用從非相關性信號聲道組合方案過度到相關性信號聲道組合方案對應的下混處理方法進行時域下混處理。其中,非相關性信號到相關性 信號編碼模式對應的時域下混處理方式具體可為分段時域下混方式,具體可以根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理。
或者,當前一幀的聲道組合方案為相關性信號聲道組合方案,當前幀的聲道組合方案為相關性信號聲道組合方案,確定為所述當前幀的編碼模式為相關性信號編碼模式,所述相關性信號編碼模式採用相關性信號聲道組合方案對應的下混處理方法進行時域下混處理。
可以理解,不同的編碼模式所對應的時域下混處理方式通常不同。 並且每種編碼模式也可能對應一種或多種時域下混處理方式。
例如,在一些可能實施方式中,在確定所述當前幀的編碼模式為相關性信號編碼模式的情況下,採用所述相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號,所述相關性信號編碼模式對應的時域下混處理方式為相關性信號聲道組合方案對應的時域下混處理方式。
又例如,在一些可能實施方式中,在確定所述當前幀的編碼模式為非相關性信號編碼模式的情況下,採用所述非相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號。所述非相關性信號編碼模式對應的時域下混處理方式為非相關性信號聲道組合方案對應的時域下混處理方式。
又例如,在一些可能實施方式中,在確定所述當前幀的編碼模式為相關性到非相關性信號編碼模式的情況下,採用相關性到非相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號,所述相關性到非相關性信號編碼模式對應的時域下混處理方式為從相關性信號聲道組合方案過度到非相關性信號聲道組 合方案對應的時域下混處理方式。其中,所述相關性信號到非相關性信號編碼模式對應的時域下混處理方式具體可為分段時域下混方式,具體可根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理。
又例如,在一些可能實施方式中,在確定所述當前幀的編碼模式為非相關性到相關性信號編碼模式的情況下,採用所述非相關性到相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號,所述非相關性到相關性信號編碼模式對應的時域下混處理方式為從非相關性信號聲道組合方案過度到相關性信號聲道組合方案對應的時域下混處理方式。
可以理解,不同的編碼模式所對應的時域下混處理方式通常不同。 並且每種編碼模式也可能對應一種或多種時域下混處理方式。
舉例來說,在一些可能的實施方式之中,採用所述非相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號,可包括:根據所述當前幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號;或者根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號。
可以理解,上述方案中需確定當前幀的聲道組合方案,這就表示當前幀的聲道組合方案存在多種可能,這相對於只有唯一一種聲道組合方案的傳統方案而言,多種可能的聲道組合方案和多種可能場景之間有利於獲得更好的相容匹配效果。上述方案中需基於前一幀的聲道組合方案和所述當前幀的聲道組合方案來確定當前幀的編碼模式,當前幀的編碼模式存在多種可能,而這相 對於只有唯一一種編碼模式的傳統方案而言,多種可能的編碼模式和多種可能場景之間有利於獲得更好的相容匹配效果。
具體例如,在所述當前幀和前一幀的聲道組合方案不同的情況下,可確定當前幀的編碼模式例如可能為相關性信號到非相關性信號編碼模式、或為非相關性信號到相關性信號編碼模式,那麼,可根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理。
由於在所述當前幀和前一幀的聲道組合方案不同的情況下引入了對所述當前幀的左右聲道信號進行分段時域下混處理的機制,分段時域下混處理機制有利於實現聲道組合方案的平滑過度,進而有利於提高編碼品質。
相應的,下麵針對時域立體聲的解碼場景進行舉例說明。
參見第3圖,下面還提供一種音訊解碼模式確定方法,音訊解碼模式確定方法的相關步驟可由解碼裝置來實施,方法具體可包括:301、基於碼流中的當前幀的聲道組合方案標識確定當前幀的聲道組合方案。
302、根據前一幀的聲道組合方案和所述當前幀的聲道組合方案,確定所述當前幀的解碼模式。
其中,所述當前幀的解碼模式為多種解碼模式中的其中一種。例如所述多種解碼模式可包括:相關性信號到非相關性信號解碼模式(correlated-to-anticorrelatedsignal decoding switching mode)、非相關性信號到相關性信號解碼模式(anticorrelated-to-correlated signal decoding switching mode)、相關性信號解碼模式(correlated signal decoding mode))和非相關性信號解碼模式(anticorrelated signal decoding mode)等。
其中,相關性信號到非相關性信號解碼模式對應的時域上混模式例 如可稱為“相關性信號到非相關性信號上混模式”(correlated-to-anticorrelated signal upmix switching mode)。非相關性信號到相關性信號解碼模式對應的時域上混模式例如可稱為“非相關性信號到相關性信號上混模式”(anticorrelated-to-correlatedsignal upmix switching mode)。相關性信號解碼模式對應的時域上混模式例如可稱為“相關性信號上混模式”(correlatedsignal upmix mode)。非相關性信號解碼模式對應的時域上混模式例如可稱為“非相關性信號上混模式”(anticorrelated signal upmix mode)。
可以理解,本申請實施例中對編碼模式、解碼模式和聲道組合方案等物件的命名都是示意性的,在實際應用中也可能選用其他名稱。
在一些可能的實施方式中,根據前一幀的聲道組合方案和所述當前幀的聲道組合方案確定所述當前幀的解碼模式,包括:在前一幀的聲道組合方案為相關性信號聲道組合方案,並且當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定所述當前幀的解碼模式為相關性信號到非相關性信號解碼模式,其中,相關性信號到非相關性信號解碼模式採用從相關性信號聲道組合方案過渡到非相關性信號聲道組合方案對應的上混處理方法進行時域上混處理。
或者,在前一幀的聲道組合方案為非相關性信號聲道組合方案,並且所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定所述當前幀的解碼模式為非相關性信號解碼模式,所述非相關性信號解碼模式採用非相關性信號聲道組合方案對應的上混處理方法進行時域上混處理。
或者,在前一幀的聲道組合方案為非相關性信號聲道組合方案,並且當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定所述當前幀的解 碼模式為非相關性信號到相關性信號解碼模式,所述非相關性信號到相關性信號解碼模式採用從非相關性信號聲道組合方案過度到相關性信號聲道組合方案對應的上混處理方法進行時域上混處理。
或者,當前一幀的聲道組合方案為相關性信號聲道組合方案,當前幀的聲道組合方案為相關性信號聲道組合方案,確定為所述當前幀的解碼模式為相關性信號解碼模式,所述相關性信號解碼模式採用相關性信號聲道組合方案對應的上混處理方法進行時域上混處理。
例如解碼裝置在確定所述當前幀的解碼模式為非相關性信號解碼模式的情況下,採用所述非相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號。
其中,左右聲道重建信號可為左右聲道解碼信號,或可通過將左右聲道重建信號進行時延調整處理和/或時域後處理以得到左右聲道解碼信號。
其中,所述非相關性信號解碼模式對應的時域上混處理方式為非相關性信號聲道組合方案對應的時域上混處理方式,所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。
其中,當前幀的解碼模式可為多種解碼模式中的其中一種。例如當前幀的解碼模式可能是如下解碼模式中的其中一種:相關性信號解碼模式、非相關性信號解碼模式、相關性到非相關性信號解碼模式、非相關性到相關性信號解碼模式。
可以理解,上述方案中需確定當前幀的解碼模式,這就表示當前幀的解碼模式存在多種可能,這相對於只有唯一一種解碼模式的傳統方案而言,多種可能的解碼模式和多種可能場景之間有利於獲得更好的相容匹配效果。並 且,由於引入了針對類反相信號對應的聲道組合方案,這使得對於當前幀的立體聲信號為類反相信號的情況下,有了針對性相對更強的聲道組合方案和解碼模式,進而有利於提高解碼品質。
又例如,解碼裝置在確定所述當前幀的解碼模式為相關性信號解碼模式的情況下,採用所述相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,所述相關性信號解碼模式對應的時域上混處理方式為相關性信號聲道組合方案對應的時域上混處理方式,所述相關性信號聲道組合方案為類正相信號對應的聲道組合方案。
又例如,解碼裝置在確定所述當前幀的解碼模式為相關性到非相關性信號解碼模式的情況下,採用所述相關性到非相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,所述相關性到非相關性信號解碼模式對應的時域上混處理方式為從相關性信號聲道組合方案過度到非相關性信號聲道組合方案對應的時域上混處理方式。
又例如,解碼裝置在確定所述當前幀的解碼模式為非相關性到相關性信號解碼模式的情況下,採用所述非相關性到相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,所述非相關性到相關性信號解碼模式對應的時域上混處理方式為從非相關性信號聲道組合方案過度到相關性信號聲道組合方案對應的時域上混處理方式。
可以理解,不同的解碼模式所對應的時域上混處理方式通常不同。 並且每種解碼模式也可能對應一種或多種時域上混處理方式。
可以理解,上述方案中需確定當前幀的聲道組合方案,這就表示當 前幀的聲道組合方案存在多種可能,這相對於只有唯一一種聲道組合方案的傳統方案而言,多種可能的聲道組合方案和多種可能場景之間有利於獲得更好的相容匹配效果。上述方案中需基於前一幀的聲道組合方案和所述當前幀的聲道組合方案來確定當前幀的解碼模式,當前幀的解碼模式存在多種可能,而這相對於只有唯一一種解碼模式的傳統方案而言,多種可能的解碼模式和多種可能場景之間有利於獲得更好的相容匹配效果。
進一步的,解碼裝置基於當前幀的解碼模式所對應的時域上混處理對當前幀的主次聲道解碼信號進行時域上混處理,以得到當前幀的左右聲道重建信號。
下面舉例編碼裝置確定當前幀的聲道組合方案的一些具體實現方式。編碼裝置確定當前幀的聲道組合方案的具體實現方式是多種多樣的。
舉例來說,在一些可能實施方式中,確定當前幀的聲道組合方案可包括:通過對所述當前幀進行至少一次聲道組合方案判決,確定當前幀的聲道組合方案。
具體例如,所述確定當前幀的聲道組合方案包括:對所述當前幀進行聲道組合方案初始判決,以確定所述當前幀的初始聲道組合方案。基於所述當前幀的初始聲道組合方案對所述當前幀進行聲道組合方案修正判決,以確定所述當前幀的聲道組合方案。此外,也可直接將所述當前幀的初始聲道組合方案作為所述當前幀的聲道組合方案,即所述當前幀的聲道組合方案可為:通過對所述當前幀進行聲道組合方案初始判決而確定的所述當前幀的初始聲道組合方案。
例如,對所述當前幀進行聲道組合方案初始判決可包括:利用所述當前幀的左右聲道信號確定所述當前幀的立體聲信號的信號正反相類型;利用 所述當前幀的立體聲信號的信號正反相類型和前一幀的聲道組合方案確定所述當前幀的初始聲道組合方案。其中,所述當前幀的立體聲信號的信號正反相類型可以是類正相信號或類反相信號。所述當前幀的立體聲信號的信號正反相類型可通過所述當前幀的信號正反相類型標識(信號正反相類型標識例如用tmp_SM_flag表示)來指示。具體例如,當所述當前幀的信號正反相類型標識取值為“1”時,指示所述當前幀的立體聲信號的信號正反相類型為類正相信號,當所述當前幀的信號正反相類型標識取值為“0”時,指示所述當前幀的立體聲信號的信號正反相類型為類反相信號,反之亦可。
音訊幀(例如前一幀或當前幀)的聲道組合方案可通過所述音訊幀的聲道組合方案標識來指示。例如當音訊幀的聲道組合方案標識取值為“0”時,指示該音訊幀的聲道組合方案為相關性信號聲道組合方案。當音訊幀的聲道組合方案標識取值為“1”時,指示該音訊幀的聲道組合方案為非相關性信號聲道組合方案,反之亦可。
類似的,音訊幀(例如前一幀或當前幀)的初始聲道組合方案可通過所述音訊幀的初始聲道組合方案標識(初始聲道組合方案標識例如用tdm_SM_flag_loc表示)來指示。例如當音訊幀的初始聲道組合方案標識取值為“0”時,指示該音訊幀的初始聲道組合方案為相關性信號聲道組合方案。又例如當音訊幀的初始聲道組合方案標識取值為“1”時,指示該音訊幀的初始聲道組合方案為非相關性信號聲道組合方案,反之亦可。
其中,利用所述當前幀的左右聲道信號確定所述當前幀的立體聲信號的信號正反相類型可包括:計算所述當前幀的左右聲道信號之間的相關性值xorr,在所述xorr小於或者等於第一閾值的情況下確定所述當前幀的立體聲信號的信號正反相類型為類正相信號,在所述xorr大於第一閾值的情況下確定所述當前幀的立體聲信號的信號正反相類型為類反相信號。進一步的,若利用所 述當前幀的信號正反相類型標識來指示所述當前幀的立體聲信號的信號正反相類型,則在確定所述當前幀的立體聲信號的信號正反相類型為類正相信號的情況下,可置所述當前幀的信號正反相類型標識的取值指示出所述當前幀的立體聲信號的信號正反相類型為類正相信號;那麼,在確定所述當前幀的信號正反相類型為類正相信號的情況下,可置所述當前幀的信號正反相類型標識的取值指示出所述當前幀的立體聲信號的信號正反相類型為類反相信號。
其中,第一閾值的取值範圍例如可為(0.5,1.0),例如可等於0.5、0.85、0.75、0.65或0.81等。
具體例如,音訊幀(例如前一幀或當前幀)的信號正反相類型標識取值為“0”時,指示該音訊幀的立體聲信號的信號正反相類型為類正相信號;音訊幀(例如前一幀或當前幀)的信號正反相類型標識取值為“1”時,指示該音訊幀的立體聲信號的信號正反相類型為類反相信號,以此類推。
其中,利用所述當前幀的立體聲信號的信號正反相類型和前一幀的聲道組合方案確定所述當前幀的初始聲道組合方案,例如可包括:在所述當前幀的立體聲信號的信號正反相類型為類正相信號,且前一幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定所述當前幀的初始聲道組合方案為相關性信號聲道組合方案;在所述當前幀的立體聲信號的信號正反相類型為類反相信號,且前一幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案。
或者,在所述當前幀的立體聲信號的信號正反相類型為類正相信號,並且前一幀的聲道組合方案為非相關性信號聲道組合方案的情況下,如果所述當前幀的左右聲道信號的信噪比均小於第二閾值,確定所述當前幀的初始聲道組合 方案為相關性信號聲道組合方案;如果所述當前幀的左聲道信號和/或右聲道信號的信噪比大於或等於第二閾值,確定所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案。
或者,在所述當前幀的立體聲信號的信號正反相類型為類反相信號,並且前一幀的聲道組合方案為相關性信號聲道組合方案的情況下,如果所述當前幀的左右聲道信號的信噪比均小於第二閾值,確定所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案;如果所述當前幀的左聲道信號和/或右聲道信號的信噪比大於或等於第二閾值,確定所述當前幀的初始聲道組合方案為相關性信號聲道組合方案。
其中,第二閾值的取值範圍例如可為[0.8,1.2],例如可等於0.8、0.85、0.9、1、1.1或1.18等。
其中,基於所述當前幀的初始聲道組合方案對所述當前幀進行聲道組合方案修正判決可以包括:根據前一幀的聲道組合比例因數修正標識、所述當前幀的立體聲信號的信號正反相類型和所述當前幀的初始聲道組合方案,確定所述當前幀的聲道組合方案。
其中,當前幀的聲道組合方案標識可記作tdm_SM_flag,當前幀的聲道組合比例因數修正標識記作tdm_SM_modi_flag。例如聲道組合比例因數修正標識取值為0,表示無需進行聲道組合比例因數的修正,聲道組合比例因數修正標識取值為1,表示需進行聲道組合比例因數的修正。當然,聲道組合比例因數修正標識也可選用其它不同的取值來表示是否需進行聲道組合比例因數的修正。
具體例如,基於所述當前幀的聲道組合方案初始判決結果對所述當前幀進行聲道組合方案修正判決,可包括:如果前一幀的聲道組合比例因數修正標識指示需修正聲道組合比例 因數,將非相關性信號聲道組合方案作為所述當前幀的聲道組合方案;如果前一幀的聲道組合比例因數修正標識指示無需修正聲道組合比例因數,判決當前幀是否滿足切換條件,基於當前幀是否滿足切換條件的判決結果確定當前幀的聲道組合方案。
其中,所述基於當前幀是否滿足切換條件的判決結果確定當前幀的聲道組合方案,可以包括:在前一幀的聲道組合方案與所述當前幀的初始聲道組合方案不同,並且所述當前幀滿足切換條件,且所述當前幀的初始聲道組合方案為相關性信號聲道組合方案,且前一幀的聲道組合方案為非相關性信號聲道組合方案,確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案。
或者,在前一幀的聲道組合方案與所述當前幀的初始聲道組合方案不同,並且所述當前幀滿足切換條件,且所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案,且前一幀的聲道組合方案為相關性信號聲道組合方案,並且所述前一幀的聲道組合比例因數小於第一比例因數閾值的情況下,確定所述當前幀的聲道組合方案為相關性信號聲道組合方案。
或者,在前一幀的聲道組合方案與所述當前幀的初始聲道組合方案不同,並且所述當前幀滿足切換條件,並且所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案,並且前一幀的聲道組合方案為相關性信號聲道組合方案,並且所述前一幀的聲道組合比例因數大於或者等於第一比例因數閾值的情況下,確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案。
或者,在第前P-1幀的聲道組合方案與第前P幀的初始聲道組合方案不同, 且所述第前P幀的不滿足切換條件,且所述當前幀滿足切換條件,並且所述當前幀的立體聲信號的信號正反相類型為類正相信號,並且所述當前幀的初始聲道組合方案為相關性信號聲道組合方案,並且前一幀為非相關性信號聲道組合方案,確定所述當前幀的聲道組合方案為相關性信號聲道組合方案。
或者,在第前P-1幀的聲道組合方案與第前P幀的初始聲道組合方案,且所述第前P幀的不滿足切換條件,且所述當前幀滿足切換條件,且當前幀的立體聲信號的信號正反相類型為類反相信號,且所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案,且前一幀的聲道組合方案為相關性信號聲道組合方案,並且所述前一幀的聲道組合比例因數小於第二比例因數閾值的情況下,確定所述當前幀的聲道組合方案為相關性信號聲道組合方案。
或者,在第前P-1幀的聲道組合方案與第前P幀的初始聲道組合方案不同,且所述第前P幀的不滿足切換條件,且所述當前幀滿足切換條件,且當前幀的立體聲信號的正反相類型為類反相信號,且所述當前幀的初始聲道組合方案為非相關性信號聲道組合方案,且前一幀的聲道組合方案為相關性信號聲道組合方案,並且所述前一幀的聲道組合比例因數大於或等於第二比例因數閾值的情況下,確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案。
其中,P可為大於1的整數,例如P可等於2、3、4、5、6或其他值。
其中,第一比例因數閾值的取值範圍例如可為[0.4,0.6],例如可等於0.4、0.45、0.5、0.55或0.6等。
其中,第二比例因數閾值的取值範圍例如可為[0.4,0.6],例如可等於0.4、0.46、0.5、0.56或0.6等。
在一些可能實施方式中,判決當前幀是否滿足切換條件可包括:根 據前一幀的主要聲道信號框架類型和/或次要聲道信號框架類型判決當前幀是否滿足切換條件。
在一些可能的實施方式中,判決當前幀是否滿足切換條件可包括:在第一條件、第二條件和第三條件都滿足的情況下判決當前幀滿足切換條件;或者在第二條件、第三條件、第四條件和第五條件都滿足的情況下判決當前幀滿足切換條件;或者在第六條件滿足的情況下判決當前幀滿足切換條件;其中,第一條件:前一幀的前一幀的主要聲道信號框架類型為下列中的任意一種:VOICED_CLAS frame(濁音特性幀,其之前的幀為濁音幀或濁音開始幀)、ONSET frame(濁音開始幀)、SIN_ONSET frame(諧波和雜訊混合的開始幀)、INACTIVE_CLAS frame(非活動特性幀)、AUDIO_CLAS(音訊幀),且前一幀的主要聲道信號框架類型為UNVOICED_CLAS frame(清音、靜音、雜訊或濁音結尾等幾種特性之一的幀)或VOICED_TRANSITION frame(濁音之後的過度,濁音特性已經很弱的幀);或者,前一幀的前一幀的次要聲道信號框架類型為下列中的任意一種:VOICED_CLAS frame、ONSET frame、SIN_ONSET frame、INACTIVE_CLAS frame和AUDIO_CLAS frame,且前一幀的次要聲道信號框架類型為UNVOICED_CLAS frame或者VOICED_TRANSITION frame。
第二條件:前一幀的主要聲道信號和次要聲道信號的初始編碼類型(raw coding mode)都不為VOICED(濁音幀對應的編碼類型)。
第三條件:截至前一幀,已持續使用前一幀所使用的聲道組合方案的幀數大於預設幀數閾值。幀數閾值的取值範圍例如可為[3,10],例如幀數閾值可等於3、4、5、6、7、8、9或其他值。
第四條件:前一幀的主要聲道信號框架類型為UNVOICED_CLAS,或 前一幀的次要聲道信號框架類型為UNVOICED_CLAS。
第五條件:當前幀的左右聲道信號長時均方根能量值小於能量閾值。這個能量閾值的取值範圍例如可為[300,500],例如幀數閾值可等於300、400、410、451、482、500、415或其他值。
第六條件:前一幀的主要聲道信號框架類型為音樂信號,且前一幀的主要聲道信號的低頻段與高頻段的能量比大於第一能量比閾值,且前一幀的次要聲道信號的低頻段與高頻段的能量比大於第二能量比閾值。
其中,第一能量比閾值範圍例如可為[4000,6000],例如幀數閾值可等於4000、4500、5000、5105、5200、6000、5800或其他值。
其中,第二能量比閾值範圍例如可為[4000,6000],例如幀數閾值可等於4000、4501、5000、5105、5200、6000、5800或其他值。
可以理解,判決當前幀是否滿足切換條件的實施方式可以是多種多樣的,不限於上述舉例的方式。
可以理解,上述舉例中給出了確定當前幀的聲道組合方案的一些實施方式,但實際應用中也可能不限於上述舉例方式。
下面進一步針對非相關性信號編碼模式場景進行舉例說明。
參見第4圖、本申請實施例提供了一種音訊編碼方法,音訊編碼方法的相關步驟可由編碼裝置來實施,方法具體可以包括:401、確定當前幀的編碼模式。
402、在確定所述當前幀的編碼模式為非相關性信號編碼模式的情況下,採用所述非相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號。
403、對得到的所述當前幀的主次聲道信號進行編碼。
其中,所述非相關性信號編碼模式對應的時域下混處理方式為非相關性信號聲道組合方案對應的時域下混處理方式,所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。
舉例來說,在一些可能的實施方式之中,採用所述非相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理以得到所述當前幀的主次聲道信號,可包括:根據所述當前幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號;或者根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號。
可以理解,音訊幀(例如當前幀或前一幀)的聲道組合方案(例如非相關性信號聲道組合方案或非相關性信號聲道組合方案)的聲道組合比例因數可以是預設的固定值。當然也可根據音訊幀的聲道組合方案來確定這個音訊幀的聲道組合比例因數。
在一些可能實施方式中,可基於音訊幀的聲道組合比例因數構建相應的下混矩陣,利用聲道組合方案對應的下混矩陣來對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號。
例如,在根據所述當前幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號的情況下,
Figure 107120265-A0305-02-0036-8
又舉例來說,在根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理, 以得到所述當前幀的主次聲道信號的情況下,
Figure 107120265-A0305-02-0037-12
Figure 107120265-A0305-02-0037-10
其中,所述delay_com表示編碼時延補償。
又舉例來說,在根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號的情況下,
Figure 107120265-A0305-02-0037-13
Figure 107120265-A0305-02-0037-14
Figure 107120265-A0305-02-0037-15
其中,fade_in(n)表示淡入因數。例如
Figure 107120265-A0305-02-0037-17
當然fade_in(n)也可以是基於n的其它函數關係的淡入因數。
fade_out(n)表示淡出因數。例如
Figure 107120265-A0305-02-0037-18
當然fade_out(n)也可以是基於n的其它函數關係的淡出因數。
其中,NOVA_1表示過渡處理長度。NOVA_1取值可根據具體場景需 要設定。NOVA_1例如可等於3/N或者NOVA_1可為小於N的其它值。
又舉例來說,在採用所述相關性信號編碼模式對應的時域下混處理方式,對所述當前幀的左右聲道信號進行時域下混處理,以得到所述當前幀的主次聲道信號的情況下,
Figure 107120265-A0305-02-0038-19
在上述舉例中,所述X L (n)表示所述當前幀的左聲道信號。所述X R (n)表示所述當前幀的右聲道信號。所述Y(n)表示經時域下混處理而得到的所述當前幀的主要聲道信號;所述X(n)表示經時域下混處理而得到的所述當前幀的次要聲道信號。
其中,在上述舉例中,所述n表示樣點序號。例如n=0,1,…,N-1。
其中,在上述舉例中,delay_com表示編碼時延補償。
M 11表示所述前一幀的相關性信號聲道組合方案對應的下混矩陣,M 11基於所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述M 12表示所述前一幀的非相關性信號聲道組合方案對應的下混矩陣,所述M 12基於所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述M 22表示所述當前幀的非相關性信號聲道組合方案對應的下混矩陣,所述M 22基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述M 21表示所述當前幀的相關性信號聲道組合方案對應的下混矩陣,所述M 21基於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。
其中,所述M 21可能存在多種形式,例如:
Figure 107120265-A0305-02-0039-20
Figure 107120265-A0305-02-0039-21
其中,所述ratio表示當前幀的相關性信號聲道組合方案對應的聲道組合比例因數。
其中,所述M 22可能存在多種形式,例如:
Figure 107120265-A0305-02-0039-22
Figure 107120265-A0305-02-0039-23
Figure 107120265-A0305-02-0039-24
Figure 107120265-A0305-02-0039-25
Figure 107120265-A0305-02-0039-26
Figure 107120265-A0305-02-0039-27
其中,α1=ratio_SM;α2=1-ratio_SM。所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,所述M 12可能存在多種形式,例如:
Figure 107120265-A0305-02-0039-28
Figure 107120265-A0305-02-0040-29
Figure 107120265-A0305-02-0040-30
Figure 107120265-A0305-02-0040-31
Figure 107120265-A0305-02-0040-32
Figure 107120265-A0305-02-0040-33
其中,α1_pre =tdm_last_ratio_SM;α2_pre =1-tdm_last_ratio_SMtdm_last_ratio_SM表示前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,當前幀的左右聲道信號具體可以是所述當前幀的原始左右聲道信號(原始左右聲道信號是未經時域預處理的左右聲道信號,例如可以是採樣得到左右聲道信號),或者可是所述當前幀的經時域預處理的左右聲道信號;或者可以是當前幀的經時延對齊處理的左右聲道信號。
具體例如,
Figure 107120265-A0305-02-0040-34
Figure 107120265-A0305-02-0040-35
Figure 107120265-A0305-02-0041-36
其中,所述
Figure 107120265-A0305-02-0041-37
表示所述當前幀的原始左右聲道信號。所述
Figure 107120265-A0305-02-0041-261
表示所述當前幀的經時域預處理的左右聲道信號。所述
Figure 107120265-A0305-02-0041-262
表示所 述當前幀的經時延對齊處理的左右聲道信號。
相應的,下面針對非相關性信號解碼模式場景進行舉例說明。
參見第5圖,本申請實施例還提供一種音訊解碼方法,音訊解碼方法的相關步驟可由解碼裝置來實施,方法具體可以包括:501、根據碼流進行解碼以得到當前幀的主次聲道解碼信號。
502、確定所述當前幀的解碼模式。
可以理解,步驟501和步驟502的執行沒有必然的先後順序。
503、在確定所述當前幀的解碼模式為非相關性信號解碼模式的情況下,採用所述非相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號。
其中,左右聲道重建信號可為左右聲道解碼信號,或可通過將左右聲道重建信號進行時延調整處理和/或時域後處理以得到左右聲道解碼信號。
其中,所述非相關性信號解碼模式對應的時域上混處理方式為非相關性信號聲道組合方案對應的時域上混處理方式,所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。
其中,當前幀的解碼模式可為多種解碼模式中的其中一種。例如當 前幀的解碼模式可能是如下解碼模式中的其中一種:相關性信號解碼模式、非相關性信號解碼模式、相關性到非相關性信號解碼模式、非相關性到相關性信號解碼模式。
可以理解,上述方案中需確定當前幀的解碼模式,這就表示當前幀的解碼模式存在多種可能,這相對於只有唯一一種解碼模式的傳統方案而言,多種可能的解碼模式和多種可能場景之間有利於獲得更好的相容匹配效果。並且,由於引入了針對類反相信號對應的聲道組合方案,這使得對於當前幀的立體聲信號為類反相信號的情況下,有了針對性相對更強的聲道組合方案和解碼模式,進而有利於提高解碼品質。
在一些可能實施方式中,所述方法還可包括:在確定所述當前幀的解碼模式為相關性信號解碼模式的情況下,採用所述相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,所述相關性信號解碼模式對應的時域上混處理方式為相關性信號聲道組合方案對應的時域上混處理方式,所述相關性信號聲道組合方案為類正相信號對應的聲道組合方案。
在一些可能實施方式中,所述方法還可包括:在確定所述當前幀的解碼模式為相關性到非相關性信號解碼模式的情況下,採用所述相關性到非相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,所述相關性到非相關性信號解碼模式對應的時域上混處理方式為從相關性信號聲道組合方案過度到非相關性信號聲道組合方案對應的時域上混處理方式。
在一些可能實施方式中,所述方法還可包括:在確定所述當前幀的解碼模式為非相關性到相關性信號解碼模式的情況下,採用所述非相關性到相 關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,所述非相關性到相關性信號解碼模式對應的時域上混處理方式為從非相關性信號聲道組合方案過度到相關性信號聲道組合方案對應的時域上混處理方式。
可以理解,不同的解碼模式所對應的時域上混處理方式通常不同。 並且每種解碼模式也可能對應一種或多種時域上混處理方式。
舉例來說,在一些可能的實施方式中,所述採用所述非相關性信號解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號,包括:根據所述當前幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號;或者根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號。
在一些可能實施方式中,可基於音訊幀的聲道組合比例因數構建相應的上混矩陣,利用聲道組合方案對應的上混矩陣,來對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號。
舉例來說,在根據所述當前幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號的情況下,
Figure 107120265-A0305-02-0043-41
又舉例來說,在根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的主次聲道解碼信號進行時域上混處 理以得到所述當前幀的左右聲道重建信號的情況下,
Figure 107120265-A0305-02-0044-44
其中,所述delay_com表示編碼時延補償。
又舉例來說,在根據所述當前幀和前一幀的非相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號的情況下,
Figure 107120265-A0305-02-0044-46
Figure 107120265-A0305-02-0044-47
Figure 107120265-A0305-02-0044-48
其中,所述
Figure 107120265-A0305-02-0044-182
表示所述當前幀的左聲道解碼信號,所述
Figure 107120265-A0305-02-0044-183
表示所述當前幀的右聲道重建信號,所述
Figure 107120265-A0305-02-0044-184
表示所述當前幀的主要聲道解碼信號,所述
Figure 107120265-A0305-02-0044-185
表示所述當前幀的次要聲道解碼信號;其中,所述NOVA_1表示過渡處理長度。
其中,fade_in(n)表示淡入因數。例如
Figure 107120265-A0305-02-0044-49
;當然fade_in(n)也可以是基於n的其它函數關 係的淡入因數。
其中,fade_out(n)表示淡出因數。例如
Figure 107120265-A0305-02-0045-53
;當然fade_out(n)也可以是基於n的其它函 數關係的淡出因數。
其中,NOVA_1表示過渡處理長度。NOVA_1取值可根據具體場景需要設定。NOVA_1例如可等於3/N或者NOVA_1可為小於N的其它值。
又舉例來說,在根據所述當前幀的相關性信號聲道組合方案的聲道組合比例因數,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號的情況下,
Figure 107120265-A0305-02-0045-54
在上述舉例中,所述
Figure 107120265-A0305-02-0045-186
表示所述當前幀的左聲道解碼信號。所述
Figure 107120265-A0305-02-0045-187
表示所述當前幀的右聲道重建信號。所述
Figure 107120265-A0305-02-0045-188
表示所述當前幀的主要聲道解碼信號。所述
Figure 107120265-A0305-02-0045-189
表示所述當前幀的次要聲道解碼信號。
其中,在上述舉例中,所述n表示樣點序號。例如n=0,1,…,N-1。
其中,在上述舉例中,所述upmixing_delay表示解碼時延補償;
Figure 107120265-A0305-02-0045-190
表示所述前一幀的相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0045-191
基於所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述
Figure 107120265-A0305-02-0045-192
表示所述當前幀的非相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0045-193
基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述
Figure 107120265-A0305-02-0045-194
表示所述前一幀的非相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0045-195
基於所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述
Figure 107120265-A0305-02-0046-196
表示所述當前幀的相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0046-197
基於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。
其中,所述
Figure 107120265-A0305-02-0046-200
可能存在多種形式,例如:
Figure 107120265-A0305-02-0046-55
Figure 107120265-A0305-02-0046-56
Figure 107120265-A0305-02-0046-57
Figure 107120265-A0305-02-0046-58
Figure 107120265-A0305-02-0046-59
Figure 107120265-A0305-02-0046-60
其中,α1=ratio_SM;α2=1-ratio_SM;所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,所述
Figure 107120265-A0305-02-0046-199
可能存在多種形式,例如:
Figure 107120265-A0305-02-0046-61
Figure 107120265-A0305-02-0046-62
Figure 107120265-A0305-02-0047-64
Figure 107120265-A0305-02-0047-65
Figure 107120265-A0305-02-0047-67
Figure 107120265-A0305-02-0047-68
其中,α1_pre =tdm_last_ratio_SM;α2_pre =1-tdm_last_ratio_SM
其中,tdm_last_ratio_SM表示前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,所述
Figure 107120265-A0305-02-0047-201
可能存在多種形式,例如:
Figure 107120265-A0305-02-0047-70
Figure 107120265-A0305-02-0047-71
其中,所述ratio表示當前幀的相關性信號聲道組合方案對應的聲道組合比例因數。
下面針對相關性信號到非相關性信號編碼模式和非相關性信號到非相關性信號編碼模式場景進行舉例說明。相關性信號到非相關性信號編碼模式和非相關性信號到非相關性信號編碼模式對應的時域下混處理方式例如為分段時域下混處理方式。
參見第6圖、本申請實施例提供了一種音訊編碼方法,音訊編碼方法的相關步驟可由編碼裝置來實施,方法具體可以包括:601、確定當前幀的聲道組合方案。
602、在所述當前幀和前一幀的聲道組合方案不同的情況下,根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理,以得到所述當前幀的主要聲道信號和次要聲道信號。
603、對得到的所述當前幀的主要聲道信號和次要聲道信號進行編碼。
其中,在所述當前幀和前一幀的聲道組合方案不同的情況下,可確定當前幀的編碼模式為相關性信號到非相關性信號編碼模式或非相關性信號到非相關性信號編碼模式,而如果當前幀的編碼模式為相關性信號到非相關性信號編碼模式或非相關性信號到非相關性信號編碼模式,那麼例如可根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理。
具體例如,當前一幀的聲道組合方案為相關性信號聲道組合方案,且當前幀的聲道組合方案為非相關性信號聲道組合方案,可確定當前幀的編碼模式為相關性信號到非相關性信號編碼模式。又例如,當前一幀的聲道組合方案為非相關性信號聲道組合方案,且當前幀的聲道組合方案為相關性信號聲道組合方案,可確定當前幀的編碼模式為非相關性信號到相關性信號編碼模式。 以此類推。
其中,分段時域下混處理可以理解為是當前幀的左右聲道信號被分為至少兩段,針對每段採用不同的時域下混處理方式進行時域下混處理。可以理解,相對於非分段時域下混處理而言,分段時域下混處理使得在相鄰幀的聲道組合方案發生變化時獲得更好平滑過度變得更有可能。
可以理解,上述方案中需確定當前幀的聲道組合方案,這就表示當前幀的聲道組合方案存在多種可能,這相對於只有唯一一種聲道組合方案的傳統方案而言,多種可能的聲道組合方案和多種可能場景之間有利於獲得更好的相容匹配效果。並且,由於在所述當前幀和前一幀的聲道組合方案不同的情況下引入了對所述當前幀的左右聲道信號進行分段時域下混處理的機制,分段時域下混處理機制有利於實現聲道組合方案的平滑過度,進而有利於提高編碼品質。
並且,由於引入了針對類反相信號對應的聲道組合方案,這使得對於當前幀的立體聲信號為類反相信號的情況下,有了針對性相對更強的聲道組合方案和編碼模式,進而有利於提高編碼品質。
舉例來說,前一幀的聲道組合方案例如可能為相關性信號聲道組合方案或非相關性信號聲道組合方案。當前幀的聲道組合方案可能為相關性信號聲道組合方案或非相關性信號聲道組合方案。那麼當前幀和前一幀的聲道組合方案不同也存在好幾種可能情況。
具體例如,當所述前一幀的聲道組合方案為相關性信號聲道組合方案且所述當前幀的聲道組合方案為非相關性信號聲道組合方案,所述當前幀的左右聲道信號包括左右聲道信號起始段、左右聲道信號中間段和左右聲道信號結尾段;所述當前幀的主次聲道信號包括主次聲道信號起始段、主次聲道信號中間段和主次聲道信號結尾段。那麼,根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理,以得到所述當前幀的主要聲道信號和次要聲道信號,可以包括:使用所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號起始段進行時域下混處理,以得到所述當前幀的主次聲道信號起始段; 使用所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號結尾段進行時域下混處理,以得到所述當前幀的主次聲道信號結尾段;使用所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號中間段進行時域下混處理以得到第一主次聲道信號中間段;使用當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號中間段進行時域下混處理以得到第二主次聲道信號中間段;將所述第一主次聲道信號中間段和所述第二主次聲道信號中間段進行加權求和處理以得到所述當前幀的主次聲道信號中間段。
其中,所述當前幀的左右聲道信號起始段、左右聲道信號中間段和左右聲道信號結尾段的長度可根據需要進行設定。所述當前幀的左右聲道信號起始段、左右聲道信號中間段和左右聲道信號結尾段的長度可以相等、部分相等或互不相等。
其中,所述當前幀的主次聲道信號起始段、主次聲道信號中間段和主次聲道信號結尾段的長度可根據需要進行設定。所述當前幀的主次聲道信號起始段、主次聲道信號中間段和主次聲道信號結尾段的長度可以相等、部分相等或互不相等。
其中,將所述第一主次聲道信號中間段和所述第二主次聲道信號中間段進行加權求和處理時,所述第一主次聲道信號中間段對應的加權係數,可等於或不等於所述第二主次聲道信號中間段對應的加權係數。
舉例來說,將所述第一主次聲道信號中間段和所述第二主次聲道信 號中間段進行加權求和處理時,所述第一主次聲道信號中間段對應的加權係數為淡出因數,所述第二主次聲道信號中間段對應的加權係數為淡入因數。
在一些可能實施方式中,
Figure 107120265-A0305-02-0051-72
其中,X 11(n)表示所述當前幀的主要聲道信號起始段。Y 11(n)表示所述當前幀的次要聲道信號起始段。X 31(n)表示所述當前幀的主要聲道信號結尾段。Y 31(n)表示所述當前幀的次要聲道信號結尾段。X 21(n)表示所述當前幀的主要聲道信號中間段。Y 21(n)表示所述當前幀的次要聲道信號中間段;其中,X(n)表示所述當前幀的主要聲道信號。
其中,Y(n)表示所述當前幀的次要聲道信號。 例如,
Figure 107120265-A0305-02-0051-73
例如,fade_in(n)表示淡入因數,fade_out(n)表示淡出因數。例如,fade_in(n)和fade_out(n)之和為1。
具體例如,
Figure 107120265-A0305-02-0051-75
。當然, fade_in(n)也可以是基於n的其它函數關係的淡入因數。當然,fade_out(n)也可以是基於n的其它函數關係的淡入因數。
其中,n表示樣點序號,n=0,1,…,N-1。0<N 1<N 2<N-1。
例如N 1等於100,107、120、150或其他值。
例如N 2等於180,187、200、203或其他值。
其中,所述X 211(n)表示所述當前幀的第一主要聲道信號中間段,所 述Y 211(n)表示所述當前幀的第一次要聲道信號中間段。其中,所述X 212(n)表示所述當前幀的第二主要聲道信號中間段,所述Y 212(n)表示所述當前幀的第二次要聲道信號中間段。
在一些可能實施方式中,
Figure 107120265-A0305-02-0052-76
其中,所述X L (n)表示所述當前幀的左聲道信號。所述X R (n)表示所述當前幀的右聲道信號。
所述M 11表示所述前一幀的相關性信號聲道組合方案對應的下混矩陣,所述M 11基於所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。所述M 22表示所述當前幀的非相關性信號聲道組合方案對應的下混矩陣,所述M 22基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述M 22可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0052-77
Figure 107120265-A0305-02-0052-78
Figure 107120265-A0305-02-0052-79
Figure 107120265-A0305-02-0053-80
Figure 107120265-A0305-02-0053-81
Figure 107120265-A0305-02-0053-82
其中,所述α1=ratio_SM,所述α2=1-ratio_SM,所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
所述M 11可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0053-83
Figure 107120265-A0305-02-0053-84
其中,所述tdm_last_ratio表示所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數。
又具體例如,當所述前一幀的聲道組合方案為非相關性信號聲道組合方案且所述當前幀的聲道組合方案為相關性信號聲道組合方案,其中,所述當前幀的左右聲道信號包括左右聲道信號起始段、左右聲道信號中間段和左右聲道信號結尾段;所述當前幀的主次聲道信號包括主次聲道信號起始段、主次聲道信號中間段和主次聲道信號結尾段。那麼,所述根據所述當前幀和前一幀的聲道組合方案對所述當前幀的左右聲道信號進行分段時域下混處理,以得到所述當前幀的主要聲道信號和次要聲道信號,可以包括:使用所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例 因數和非相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號起始段進行時域下混處理,以得到所述當前幀的主次聲道信號起始段;使用所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號結尾段進行時域下混處理,以得到所述當前幀的主次聲道信號結尾段;使用所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號中間段進行時域下混處理以得到第三主次聲道信號中間段;使用當前幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域下混處理方式,對所述當前幀的左右聲道信號中間段進行時域下混處理以得到第四主次聲道信號中間段;將所述第三主次聲道信號中間段和所述第四主次聲道信號中間段進行加權求和處理以得到所述當前幀的主次聲道信號中間段。
其中,將所述第三主次聲道信號中間段和所述第四主次聲道信號中間段進行加權求和處理時,所述第三主次聲道信號中間段對應的加權係數,可等於或不等於所述第四主次聲道信號中間段對應的加權係數。
例如,將所述第三主次聲道信號中間段和所述第四主次聲道信號中間段進行加權求和處理時,所述第三主次聲道信號中間段對應的加權係數為淡出因數,所述第四主次聲道信號中間段對應的加權係數為淡入因數。
在一些可能實施方式中,
Figure 107120265-A0305-02-0055-85
其中,X 12(n)表示所述當前幀的主要聲道信號起始段,Y 12(n)表示所述當前幀的次要聲道信號起始段。X 32(n)表示所述當前幀的主要聲道信號結尾段,Y 32(n)表示所述當前幀的次要聲道信號結尾段。X 22(n)表示所述當前幀的主要聲道信號中間段,Y 22(n)表示所述當前幀的次要聲道信號中間段。
其中,X(n)表示所述當前幀的主要聲道信號。
其中,Y(n)表示所述當前幀的次要聲道信號。 例如,
Figure 107120265-A0305-02-0055-86
其中,fade_in(n)表示淡入因數表示,fade_out(n)表示淡出因數,fade_in(n)和fade_out(n)之和為1。
具體例如,
Figure 107120265-A0305-02-0055-87
。當然, fade_in(n)也可以是基於n的其它函數關係的淡入因數。當然,fade_out(n)也可以是基於n的其它函數關係的淡入因數。
其中,n表示樣點序號,例如n=0,1,…,N-1。
其中,0<N 3<N 4<N-1。
例如N 3等於101,107、120、150或其他值。
例如N 4等於181,187、200、205或其他值。
其中,所述X 221(n)表示所述當前幀的第三主要聲道信號中間段,所述Y 221(n)表示所述當前幀的第三次要聲道信號中間段。其中,所述X 222(n)表示所述當前幀的第四主要聲道信號中間段,所述Y 222(n)表示所述當前幀的第四次要聲 道信號中間段。
在一些可能實施方式中,
Figure 107120265-A0305-02-0056-88
其中,所述X L (n)表示所述當前幀的左聲道信號,所述X R (n)表示所述當前幀的右聲道信號。
所述M 12表示所述前一幀的非相關性信號聲道組合方案對應的下混矩陣,所述M 12基於所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。所述M 21表示所述當前幀相關性信號聲道組合方案對應的下混矩陣,所述M 21基於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述M 12可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0056-90
Figure 107120265-A0305-02-0056-91
Figure 107120265-A0305-02-0056-92
Figure 107120265-A0305-02-0057-93
Figure 107120265-A0305-02-0057-94
Figure 107120265-A0305-02-0057-95
其中,α1_pre =tdm_last_ratio_SM;α2_pre =1-tdm_last_ratio_SM。其中,tdm_last_ratio_SM表示前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
所述M 21可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0057-96
Figure 107120265-A0305-02-0057-97
其中,所述ratio表示所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數。
在一些可能實施方式中,所述當前幀的左右聲道信號例如可以為當前幀的原始左右聲道信號,經時域預處理的左右聲道信號或經時延對齊處理的左右聲道信號。
具體例如:
Figure 107120265-A0305-02-0057-98
Figure 107120265-A0305-02-0057-99
Figure 107120265-A0305-02-0058-100
其中,所述x L (n)表示所述當前幀的原始左聲道信號(原始左聲道信號是未經時域預處理的左聲道信號),所述x R (n)表示所述當前幀的原始右聲道信號(原始右聲道信號是未經時域預處理的右聲道信號)。
所述x L_HP (n)表示所述當前幀的經時域預處理的左聲道信號,所述x R_HP (n)表示所述當前幀的經時域預處理的右聲道信號。所述
Figure 107120265-A0305-02-0058-202
表示所述當前幀的經時延對齊處理的左聲道信號,所述
Figure 107120265-A0305-02-0058-203
表示所述當前幀的經時延對齊處理的右聲道信號。
可以理解,上述舉例的分段時域下混處理方式並不一定是全部的可能實施方式,在實際應用中也可能採用其他分段時域下混處理方式。
相應的,下面針對相關性信號到非相關性信號解碼模式和非相關性信號到非相關性信號解碼模式場景進行舉例說明。相關性信號到非相關性信號解碼模式和非相關性信號到非相關性信號解碼模式對應的時域下混處理方式例如為分段時域下混處理方式。
參見第7圖,本申請實施例提供一種音訊解碼方法,音訊解碼方法的相關步驟可由解碼裝置來實施,方法具體可包括:701、根據碼流進行解碼以得到當前幀的主次聲道解碼信號。
702、確定當前幀的聲道組合方案。
可以理解,步驟701和步驟702的執行沒有必然的先後順序。
703、在所述當前幀和前一幀的聲道組合方案不同的情況下,根據所述當前幀和前一幀的聲道組合方案對所述當前幀的主次聲道解碼信號進行分段 時域上混處理,以得到所述當前幀的左右聲道重建信號。
其中,所述當前幀的聲道組合方案為多種聲道組合方案中的其中一種。
其中,例如所述多種聲道組合方案包括非相關性信號聲道組合方案和相關性信號聲道組合方案。其中,所述相關性信號聲道組合方案為類正相信號對應的聲道組合方案。所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。可以理解,類正相信號對應的聲道組合方案適用於類正相信號,類反相信號對應的聲道組合方案適用於類反相信號。
其中,分段時域上混處理可以理解為是當前幀的左右聲道信號被分為至少兩段,針對每段採用不同的時域上混處理方式進行時域上混處理。可以理解,相對於非分段時域上混處理而言,分段時域上混處理使得在相鄰幀的聲道組合方案發生變化時獲得更好平滑過度變得更有可能。
可以理解,上述方案中需確定當前幀的聲道組合方案,這就表示當前幀的聲道組合方案存在多種可能,這相對於只有唯一一種聲道組合方案的傳統方案而言,多種可能的聲道組合方案和多種可能場景之間有利於獲得更好的相容匹配效果。並且,由於在所述當前幀和前一幀的聲道組合方案不同的情況下引入了對所述當前幀的左右聲道信號進行分段時域上混處理的機制,分段時域上混處理機制有利於實現聲道組合方案的平滑過度,進而有利於提高編碼品質。
並且,由於引入了針對類反相信號對應的聲道組合方案,這使得對於當前幀的立體聲信號為類反相信號的情況下,有了針對性相對更強的聲道組合方案和編碼模式,進而有利於提高編碼品質。
舉例來說,前一幀的聲道組合方案例如可能為相關性信號聲道組合方案或非相關性信號聲道組合方案。當前幀的聲道組合方案可能為相關性信號 聲道組合方案或非相關性信號聲道組合方案。那麼當前幀和前一幀的聲道組合方案不同也存在好幾種可能情況。
具體例如,當所述前一幀的聲道組合方案為相關性信號聲道組合方案且所述當前幀的聲道組合方案為非相關性信號聲道組合方案。其中,所述當前幀的左右聲道重建信號包括左右聲道重建信號起始段、左右聲道重建信號中間段和左右聲道重建信號結尾段;所述當前幀的主次聲道解碼信號包括主次聲道解碼信號起始段、主次聲道解碼信號中間段和主次聲道解碼信號結尾段。那麼,所述根據所述當前幀和前一幀的聲道組合方案對所述當前幀的主次聲道解碼信號進行分段時域上混處理,以得到所述當前幀的左右聲道重建信號,包括:使用所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號起始段進行時域上混處理,以得到所述當前幀的左右聲道重建信號起始段;使用所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號結尾段進行時域上混處理,以得到所述當前幀的左右聲道重建信號結尾段;使用所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號中間段進行時域上混處理以得到第一左右聲道重建信號中間段;使用當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號中間段進行時域上混處理以得到第二左右聲道重建信號中間段;將所述第一左右聲道重建信號中間段和所述第二左右聲道重建信號中間段進行加權求和處理以得到所述當前幀的左右聲道重建信號中間段。
其中,所述當前幀的左右聲道重建信號起始段、左右聲道重建信號中間段和左右聲道重建信號結尾段的長度可根據需要進行設定。所述當前幀的左右聲道重建信號起始段、左右聲道重建信號中間段和左右聲道重建信號結尾段的長度可以相等、部分相等或互不相等。
其中,所述當前幀的主次聲道解碼信號起始段、主次聲道解碼信號中間段和主次聲道解碼信號結尾段的長度可根據需要進行設定。所述當前幀的主次聲道解碼信號起始段、主次聲道解碼信號中間段和主次聲道解碼信號結尾段的長度可以相等、部分相等或互不相等。
其中,左右聲道重建信號可為左右聲道解碼信號,或可通過將左右聲道重建信號進行時延調整處理和/或時域後處理以得到左右聲道解碼信號。
其中,將所述第一左右聲道重建信號中間段和所述第二左右聲道重建信號中間段進行加權求和處理時,所述第一左右聲道重建信號中間段對應的加權係數,可等於或不等於第二左右聲道重建信號中間段對應的加權係數。
舉例來說,將所述第一左右聲道重建信號中間段和所述第二左右聲道重建信號中間段進行加權求和處理時,所述第一左右聲道重建信號中間段對應的加權係數為淡出因數,所述第二左右聲道重建信號中間段對應的加權係數為淡入因數。
在一些可能實施方式中,
Figure 107120265-A0305-02-0061-101
其中,
Figure 107120265-A0305-02-0061-204
表示所述當前幀的左聲道重建信號起始段,
Figure 107120265-A0305-02-0061-205
表示所述當前幀的右聲道重建信號起始段。
Figure 107120265-A0305-02-0061-206
表示所述當前幀的左聲道重建 信號結尾段,
Figure 107120265-A0305-02-0062-207
表示所述當前幀的右聲道重建信號結尾段。其中,
Figure 107120265-A0305-02-0062-208
表示所述當前幀的左聲道重建信號中間段,
Figure 107120265-A0305-02-0062-209
表示所述當前幀的右聲道重建信號中間段。
其中,
Figure 107120265-A0305-02-0062-210
表示所述當前幀的左聲道重建信號。
其中,
Figure 107120265-A0305-02-0062-211
表示所述當前幀的右聲道重建信號。 例如,
Figure 107120265-A0305-02-0062-103
例如,fade_in(n)表示淡入因數,fade_out(n)表示淡出因數。例如,fade_in(n)和fade_out(n)之和為1。
具體例如,
Figure 107120265-A0305-02-0062-104
。當然, fade_in(n)也可以是基於n的其它函數關係的淡入因數。當然,fade_out(n)也可以是基於n的其它函數關係的淡入因數。
其中,n表示樣點序號,n=0,1,…,N-1。其中,0<N 1<N 2<N-1。
其中,所述
Figure 107120265-A0305-02-0062-212
表示所述當前幀的第一左聲道重建信號中間段,所述
Figure 107120265-A0305-02-0062-213
表示所述當前幀的第一右聲道重建信號中間段。所述
Figure 107120265-A0305-02-0062-214
表示所述當前幀的第二左聲道重建信號中間段,所述
Figure 107120265-A0305-02-0062-215
表示所述當前幀的第二右聲道重建信號中間段。
在一些可能實施方式中,
Figure 107120265-A0305-02-0062-105
Figure 107120265-A0305-02-0063-106
其中,
Figure 107120265-A0305-02-0063-216
表示所述當前幀的主要聲道解碼信號;
Figure 107120265-A0305-02-0063-217
表示所述當前幀的次要聲道解碼信號。
所述
Figure 107120265-A0305-02-0063-218
表示所述前一幀的相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0063-219
基於所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。所述
Figure 107120265-A0305-02-0063-220
表示所述當前幀的非相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0063-221
基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述
Figure 107120265-A0305-02-0063-222
可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0063-107
Figure 107120265-A0305-02-0063-108
Figure 107120265-A0305-02-0063-109
Figure 107120265-A0305-02-0063-110
Figure 107120265-A0305-02-0063-111
Figure 107120265-A0305-02-0063-112
其中,α1=ratio_SM;α2=1-ratio_SM;所述ratio_SM表示所述當前 幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
所述
Figure 107120265-A0305-02-0064-223
可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0064-113
Figure 107120265-A0305-02-0064-115
其中,所述tdm_last_ratio表示所述前一幀的相關性信號聲道組合方案對應的聲道組合比例因數。
又具體例如,當所述前一幀的聲道組合方案為非相關性信號聲道組合方案且所述當前幀的聲道組合方案為相關性信號聲道組合方案。其中,所述當前幀的左右聲道重建信號包括左右聲道重建信號起始段、左右聲道重建信號中間段和左右聲道重建信號結尾段;所述當前幀的主次聲道解碼信號包括主次聲道解碼信號起始段、主次聲道解碼信號中間段和主次聲道解碼信號結尾段。那麼,所述根據所述當前幀和前一幀的聲道組合方案對所述當前幀的主次聲道解碼信號進行分段時域上混處理,以得到所述當前幀的左右聲道重建信號,包括:使用所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號起始段進行時域上混處理,以得到所述當前幀的左右聲道重建信號起始段;使用所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號結尾段進行時域上混處理,以得到所述當前幀的左右聲道重建信號結尾段; 使用所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數和非相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號中間段進行時域上混處理以得到第三左右聲道重建信號中間段;使用當前幀的相關性信號聲道組合方案對應的聲道組合比例因數和相關性信號聲道組合方案對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號中間段進行時域上混處理以得到第四左右聲道重建信號中間段;將所述第三左右聲道重建信號中間段和所述第四左右聲道重建信號中間段進行加權求和處理以得到所述當前幀的左右聲道重建信號中間段。
其中,將所述第三左右聲道重建信號中間段和所述第四左右聲道重建信號中間段進行加權求和處理時,所述第三左右聲道重建信號中間段對應的加權係數,可等於或不等於所述第四左右聲道重建信號中間段對應的加權係數。
例如,將所述第三左右聲道重建信號中間段和所述第四左右聲道重建信號中間段進行加權求和處理時,所述第三左右聲道重建信號中間段對應的加權係數為淡出因數,所述第四左右聲道重建信號中間段對應的加權係數為淡入因數。
在一些可能實施方式中,
Figure 107120265-A0305-02-0065-116
其中,
Figure 107120265-A0305-02-0065-224
表示所述當前幀的左聲道重建信號起始段,
Figure 107120265-A0305-02-0065-225
表示所述當前幀的右聲道重建信號起始段。
Figure 107120265-A0305-02-0065-226
表示所述當前幀的左聲道重建信號結尾段,
Figure 107120265-A0305-02-0065-227
表示所述當前幀的右聲道重建信號結尾段。其中,
Figure 107120265-A0305-02-0065-228
表示所述當前幀的左聲道重建信號中間段,
Figure 107120265-A0305-02-0065-229
表示所述當前幀的右聲道重 建信號中間段;其中,
Figure 107120265-A0305-02-0066-230
表示所述當前幀的左聲道重建信號。
其中,
Figure 107120265-A0305-02-0066-231
表示所述當前幀的右聲道重建信號。 例如,
Figure 107120265-A0305-02-0066-117
其中,fade_in(n)表示淡入因數表示,fade_out(n)表示淡出因數,fade_in(n)和fade_out(n)之和為1。
具體例如,
Figure 107120265-A0305-02-0066-118
。當然, fade_in(n)也可以是基於n的其它函數關係的淡入因數。當然,fade_out(n)也可以是基於n的其它函數關係的淡入因數。
其中,n表示樣點序號,例如n=0,1,…,N-1。
其中,0<N 3<N 4<N-1。
例如N 3等於101,107、120、150或其他值。
例如N 4等於181,187、200、205或其他值。
其中,所述
Figure 107120265-A0305-02-0066-232
表示所述當前幀的第三左聲道重建信號中間段,所述
Figure 107120265-A0305-02-0066-233
表示所述當前幀的第三右聲道重建信號中間段;所述
Figure 107120265-A0305-02-0066-234
表示所述當前幀的第四左聲道重建信號中間段,所述
Figure 107120265-A0305-02-0066-235
表示所述當前幀的第四右聲道重建信號中間段。
在一些可能實施方式中,
Figure 107120265-A0305-02-0066-119
Figure 107120265-A0305-02-0067-120
其中,
Figure 107120265-A0305-02-0067-236
表示所述當前幀的主要聲道解碼信號;
Figure 107120265-A0305-02-0067-237
表示所述當前幀的次要聲道解碼信號。
所述
Figure 107120265-A0305-02-0067-238
表示所述前一幀的非相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0067-239
基於所述前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數構建;所述
Figure 107120265-A0305-02-0067-240
表示所述當前幀的相關性信號聲道組合方案對應的上混矩陣,所述
Figure 107120265-A0305-02-0067-241
基於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數構建。
所述
Figure 107120265-A0305-02-0067-242
可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0067-121
Figure 107120265-A0305-02-0067-122
Figure 107120265-A0305-02-0067-123
Figure 107120265-A0305-02-0067-124
Figure 107120265-A0305-02-0067-125
Figure 107120265-A0305-02-0067-126
其中,α1_pre =tdm_last_ratio_SM;α2_pre =1-tdm_last_ratio_SM; 其中,tdm_last_ratio_SM表示前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
所述
Figure 107120265-A0305-02-0068-243
可以有多種可能的形式,具體例如:
Figure 107120265-A0305-02-0068-127
Figure 107120265-A0305-02-0068-129
其中,所述ratio表示所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數。
本申請實施例中,當前幀的立體聲參數(例如聲道組合比例因數和/或聲道間時延差)可為固定值,也可基於當前幀的聲道組合方案(例如相關性信號聲道組合方案或非相關性信號聲道組合方案)來確定。
參見第8圖,下面舉例一種時域立體聲參數的確定方法,時域立體聲參數的確定方法的相關步驟可由編碼裝置來實施,方法具體可以包括:801、確定當前幀的聲道組合方案。
802、根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數,所述時域立體聲參數包括聲道組合比例因數和聲道間時延差中的至少一種。
其中,所述當前幀的聲道組合方案為多種聲道組合方案中的其中一種。
其中,例如所述多種聲道組合方案包括非相關性信號聲道組合方案和相關性信號聲道組合方案。
其中,所述相關性信號聲道組合方案為類正相信號對應的聲道組合 方案。所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案。可以理解,類正相信號對應的聲道組合方案適用於類正相信號,類反相信號對應的聲道組合方案適用於類反相信號。
在確定所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;在確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。
可以理解,上述方案中需確定當前幀的聲道組合方案,這就表示當前幀的聲道組合方案存在多種可能,這相對於只有唯一一種聲道組合方案的傳統方案而言,多種可能的聲道組合方案和多種可能場景之間有利於獲得更好的相容匹配效果。由於是根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數,這使得時域立體聲參數和多種可能場景之間有利於獲得更好的相容匹配效果,進而有利於提升編解碼品質。
在一些可能實施方式中,可以先分別計算出當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數和當前幀的相關性信號聲道組合方案對應的聲道組合比例因數。而後在確定當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;或者,在確定當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,確定當前幀的時域立體聲參數為所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。或者,也可先計算出當前幀的相關性信號聲道組合方案對應的時域立體聲參數,在確定當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,確定當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;而在確 定當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,再計算所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數,將計算出的所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數,確認為當前幀的時域立體聲參數。
或者,也可先確定當前幀的聲道組合方案,在確定所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,計算所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數,那麼,當前幀的時域立體聲參數為當前幀的相關性信號聲道組合方案對應的時域立體聲參數。而在確定當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,計算所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數,那麼,當前幀的時域立體聲參數為當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。
在一些可能實施方式中,根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數包括:根據所述當前幀的聲道組合方案,確定所述當前幀的聲道組合方案所對應的聲道組合比例因數初始值。在無需對所述當前幀的聲道組合方案(相關性信號聲道組合方案或非相關性信號聲道組合方法)對應的聲道組合比例因數的初始值進行修正的情況之下,所述當前幀的聲道組合方案對應的聲道組合比例因數,等於所述當前幀的聲道組合方案對應的聲道組合比例因數的初始值。在需對所述當前幀的聲道組合方案(相關性信號聲道組合方案或非相關性信號聲道組合方法)對應的聲道組合比例因數的初始值進行修正的情況之下,對所述當前幀的聲道組合方案對應的聲道組合比例因數的初始值進行修正,以得到所述當前幀的聲道組合方案對應的聲道組合比例因數的修正值,所述當前幀的聲道組合方案對應的聲道組合比例因數,等於所述當前幀的聲道組合方案對應的聲道組合比例因數的修正值。
舉例來說,所述根據所述當前幀的聲道組合方案確定所述當前幀的 時域立體聲參數可以包括:根據所述當前幀左聲道信號計算所述當前幀的左聲道信號的幀能量;根據所述當前幀右聲道信號計算所述當前幀的右聲道信號的幀能量;根據所述當前幀左聲道信號的幀能量和右聲道信號的幀能量,計算所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值。
其中,在無需對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正的情況下,所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數初始值,所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值的編碼索引;在需對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正的情況下,對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值及其編碼索引進行修正,以得到所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值及其編碼索引,所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值;所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引等於所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值的編碼索引。
具體例如,在對所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值及其編碼索引進行修正的情況下,ratio_idx_mod=0.5*(tdm_last_ratio_idx+16);ratio_mod qua=ratio_tabl[ratio_idx_mod];其中,所述tdm_last_ratio_idx表示前一幀的相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引,所述ratio_idx_mod表示所述當前幀的相 關性信號聲道組合方案對應的聲道組合比例因數的修正值對應的編碼索引,所述ratio_mod qua表示所述當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值。
又例如,根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數包括:根據所述當前幀的左聲道信號和右聲道信號獲得所述當前幀的參考聲道信號;計算所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數;計算所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數;根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數;根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,例如可包括:根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值;對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值進行修正,以得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。可以理解,當無需對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值進行修正時,那麼,所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,等於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數初始值。
在一些可能的實施方式中,
Figure 107120265-A0305-02-0073-130
其中,其中,所述mono_i(n)表示所述當前幀的參考聲道信號。
其中,所述
Figure 107120265-A0305-02-0073-244
表示所述當前幀經時延對齊處理的左聲道信號;所述
Figure 107120265-A0305-02-0073-245
表示所述當前幀經時延對齊處理的右聲道信號。所述corr_LM表示所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數,所述corr_RM表示所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數。
在一些可能的實施方式中,所述根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數,包括:根據當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀左右聲道之間的幅度相關性差異參數。
其中,平滑處理的方式可以是多樣多樣的,舉例來說:tdm_lt_corr_LM_SM cur=α*tdm_lt_corr_LM_SM pre+(1-α)corr_LM; 其中,tdm_lt_rms_L_SM cur=(1-A)*tdm_lt_rms_L_SM pre+A*rms_L,所述A表示所述當前幀的左聲道信號的長時平滑幀能量的更新因數。所述tdm_lt_rms_L_SM cur表示所述當前幀的左聲道信號的長時平滑幀能量;其中,所述rms_L表示所述當前幀左聲道信號的幀能量。tdm_lt_corr_LM_SM cur表示當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數。 tdm_lt_corr_LM_SM pre表示前一幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數。α表示左聲道平滑因數。
舉例來說,tdm_lt_corr_RM_SM cur=β*tdm_lt_corr_RM_SM pre+(1-β)corr_LM
其中,tdm_lt_rms_R_SM cur=(1-B)*tdm_lt_rms_R_SM pre+B*rms_R;所述B表示所述當前幀的右聲道信號的長時平滑幀能量的更新因數。所述tdm_lt_rms_R_SM pre表示所述當前幀的右聲道信號的長時平滑幀能量。其中,所述rms_R表示所述當前幀右聲道信號的幀能量。其中,tdm_lt_corr_RM_SM cur表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數。 tdm_lt_corr_RM_SM pre表示前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數。β表示右聲道平滑因數。
在一些可能的實施方式中,diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;其中,tdm_lt_corr_LM_SM表示所述當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,所述diff_lt_corr表示所述當前幀左右聲道信號之間的幅度相關性差異參數。
在一些可能的實施方式中,所述根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應 的聲道組合比例因數包括:對當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理,使映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的取值範圍在[MAP_MIN,MAP_MAX]之間;將映射處理後的左右聲道信號之間的幅度相關性差異參數轉換為聲道組合比例因數。
在一些可能的實施方式中,對所述當前幀的左右聲道之間的幅度相關性差異參數進行映射處理包括:對所述當前幀的左右聲道信號之間的幅度相關性差異參數進行限幅處理;對經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理。
其中,限幅處理的方式可以是多種多樣的,具體例如:
Figure 107120265-A0305-02-0075-131
其中,RATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_MIN表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值,RATIO_MAX>RATIO_MIN
其中,映射處理的方式可以是多種多樣的,具體例如:
Figure 107120265-A0305-02-0075-132
其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;其中,MAP_MAX表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值;MAP_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限;MAP_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限;MAP_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值;其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MINRATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限,RATIO_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限,RATIO_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值;其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN
又例如,
Figure 107120265-A0305-02-0076-133
其中,diff_lt_corr_limit表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數。
其中,
Figure 107120265-A0305-02-0077-134
其中,所述RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大幅度,所述-RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小幅度。
在一些可能的實施方式中,
Figure 107120265-A0305-02-0077-136
其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數。所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,或所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值。
在本申請一些實施方式,在需進行聲道組合比例因數修正的場景,修正可以在編碼聲道組合比例因數之前或之後。具體例如,可先計算得到當前幀的聲道組合比例因數(例如非相關性信號聲道組合方案對應的聲道組合比例因數或者相關性信號聲道組合方案對應的聲道組合比例因數)的初始值,而後對聲道組合比例因數的初始值進行編碼,進而得到當前幀的聲道組合比例因數的初始編碼索引,而後再對得到的當前幀的聲道組合比例因數的初始編碼索引進行修正,進而得到當前幀的聲道組合比例因數的編碼索引(得到當前幀的聲道組合比例因數的編碼索引,也就相當於也得到了當前幀的聲道組合比例因數)。或者,也可以先計算得到當前幀的聲道組合比例因數的初始值,而後對計算得到當前幀的聲道組合比例因數的初始值進行修正,進而得到當前幀的聲道組合比例因數,而後在對得到的當前幀的聲道組合比例因數進行編碼,以得到當前幀的聲道組合比例因數的編碼索引。
其中,對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正的方式可以是多種多樣的,例如,在需要通過對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正,來得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的情況下,例如可以基於前一幀的聲道組合比例因數和所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值,來對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正;或者,也可基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值,對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正。
例如,首先,根據當前幀的左聲道信號的長時平滑幀能量、當前幀的右聲道信號的長時平滑幀能量、當前幀的左聲道信號的幀間能量差異、歷史緩存中的緩存前一幀的編碼參數(例如主要聲道信號的幀間相關性、次要聲道信號的幀間相關性)、當前幀以及前一幀的聲道組合方案標識、前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數以及當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值,確定是否需要對當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正。若是,則將前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數作為當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數;否則,將當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值作為當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
當然,通過對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正,來得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的具體實現方式並不限於上述舉例。 803、對確定的所述當前幀的時域立體聲參數進行編碼。
在一些可能的實施方式中,對確定的當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數進行量化編碼,ratio_init_SM qua=ratio_tabl_SM[ratio_idx_init_SM]。
其中,所述ratio_tabl_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數標量量化的碼書,所述ratio_idx_init_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引,所述ratio_init_SM qua表示當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的量化編碼初始值。
在一些可能的實施方式中,ratio_idx_SM=ratio_idx_init_SM
ratio_SM=ratio_tabl[ratio_idx_SM]。
其中,所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。ratio_idx_SM表示當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引;或者,
Figure 107120265-A0305-02-0079-178
ratio_SM=ratio_tabl[ratio_idx_SM]
其中,ratio_idx_init_SM表示所述當前幀的非相關性信號聲道組合方案對應的初始編碼索引,tdm_last_ratio_idx_SM表示前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數的最終編碼索引,其中,φ為非相關性信號聲道組合方案對應的聲道組合比例因數的修正因數。其中,所述ratio_SM表示當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
在一些可能的實施方式中,在需要通過對所述當前幀的非相關性信 號聲道組合方案對應的聲道組合比例因數的初始值進行修正,來得到所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的情況下,還可以先所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行量化編碼,所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引,然後可以基於前一幀的聲道組合比例因數的編碼索引和所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引,來對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引進行修正;或者,也可基於所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引,對所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引進行修正。
例如,可以是先將當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行量化編碼,得到當前幀的非相關性信號聲道組合方案對應的初始編碼索引。然後在需要對當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始值進行修正時,將前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引作為當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引;否則,將當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引作為當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引。最後,將當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引對應的量化編碼值作為當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
此外,在時域立體聲參數包括聲道間時間差的情況下,根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數可包括:在所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,計算所述當前幀的聲道間時間差。並且可將計算得到的所述當前幀的聲道間時間差寫入碼流。在所述 當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下使用預設的聲道間時間差(例如0)作為所述當前幀的聲道間時間差。並且可不將默認的聲道間時間差寫入碼流,解碼裝置也使用預設的聲道間時間差。
下面還舉例提供一種時域立體聲參數的編碼方法,例如可以包括:確定當前幀的聲道組合方案;根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數;對確定的所述當前幀的時域立體聲參數進行編碼,所述時域立體聲參數包括聲道組合比例因數和聲道間時延差中的至少一種。
相應的,解碼裝置可從碼流中獲得當前幀的時域立體聲參數,進而基於從碼流中獲得的當前幀的時域立體聲參數來進行相關解碼。
下麵通過一個更為具體的應用場景進行舉例說明。
參見第9-A圖,第9-A圖是本申請實施例提供的一種音訊編碼方法的流程示意圖。本申請實施例提供的一種音訊編碼方法可由編碼裝置來實施,方法具體可包括:901、對當前幀的原始左右聲道信號進行時域預處理。
例如若立體聲音訊信號的取樣速率為16KHz,一幀信號為20ms幀長記作N,當N=320是表示幀長為320個樣點。其中,當前幀的立體聲信號包括當前幀的左聲道信號和當前幀的右聲道信號。其中,當前幀的原始左聲道信號記作x L (n),當前幀的原始右聲道信號記作x R (n),n為樣點序號,n=0,1,…,N-1。
例如,對當前幀的原始左右聲道信號進行時域預處理可包括:對當前幀的原始左右聲道信號進行高通濾波處理,得到當前幀經時域預處理的左右聲道信號,當前幀經時域預處理的左聲道信號記作x L_HP (n),當前幀經時域預處理的的右聲道信號記作x R_HP (n)。其中,n為樣點序號。n=0,1,…,N-1。其中,高通濾波處理採用的濾波器例如可為截止頻率為20Hz的無限脈衝回應濾波器(英文:Infinite Impulse Response,縮寫:IIR)濾波器,也可採用其他類型的濾波器。
例如取樣速率為16KHz且對應截止頻率為20Hz的高通濾波器的傳遞函數可為:
Figure 107120265-A0305-02-0082-137
其中,b 0=0.994461788958195,b 1=-1.988923577916390,b 2=0.994461788958195,a 1=1.988892905899653,a 2=-0.988954249933127,z為Z變換的變換因數。
其中,相應的時域濾波器的傳遞函數可表示為:x L_HP (n)=b 0*x L (n)+b 1*x L (n-1)+b 2*x L (n-2)-a 1*x L_HP (n-1)-a 2*x L_HP (n-2)
x R_HR (n)=b 0*x R (n)+b 1*x R (n-1)+b 2*x R (n-2)-a 1*x R_HP (n-1)-a 2*x R_HP (n-2)
902、對當前幀經時域預處理的左右聲道信號進行時延對齊處理,得到當前幀經時延對齊處理的左右聲道信號。
其中,經時延對齊處理的信號可簡稱“時延對齊的信號”。例如經時延對齊處理的左聲道信號可簡稱“時延對齊的左聲道信號”,經時延對齊處理的右聲道信號可簡稱“時延對齊的左聲道信號”,以此類推。
具體地,可根據當前幀預處理後的左右聲道信號提取聲道間時延參數並編碼,根據編碼後的聲道間時延參數對左右聲道信號進行時延對齊處理,得到當前幀經時延對齊處理的左右聲道信號。其中,當前幀經時延對齊處理的左聲道信號記作
Figure 107120265-A0305-02-0082-246
,當前幀經時延對齊處理的右聲道信號記作
Figure 107120265-A0305-02-0082-247
,其中,n為樣點序號,n=0,1,…,N-1。
具體例如,編碼裝置可根據當前幀預處理後的左右聲道信號計算左右聲道間的時域互相關函數。搜索左右聲道間的時域互相關函數的最大值(或其它值)以確定左右聲道信號間的時延差。對確定的左右聲道間的時延差進行量化編碼。根據量化編碼後的左右聲道間時延差,以左右聲道中選定的一個聲 道的信號為基準,對另一個聲道的信號進行時延調整,從而獲得當前幀經時延對齊處理的左右聲道信號。
值得注意的是,時延對齊處理的具體實現方法有很多種,本實施例中對具體時延對齊處理方法不做限定。
903、對當前幀經時延對齊處理的左右聲道信號進行時域分析。
具體地,時域分析可以包括瞬態檢測等。其中,瞬態檢測可以是對分別當前幀經時延對齊處理的左右聲道信號進行能量檢測(具體可檢測當前幀是否發生能量突變)。例如,當前幀經時延對齊處理的左聲道信號的能量表示為Ecur_L ,前一幀時延對齊後的左聲道信號的能量表示為Epre_L ,那麼可根據Epre_L 和Ecur_L 之間的差值的絕對值來進行瞬態檢測,得到當前幀經時延對齊處理的左聲道信號的瞬態檢測結果。同理,可以用同樣的方法對當前幀經時延對齊處理的左聲道信號進行瞬態檢測。時域分析也可以包括除瞬態檢測之外的其他傳統方式的時域分析,例如可包括頻帶擴展預處理等。
可以理解,步驟903可在步驟902之後,在對當前幀的主要聲道信號編碼和次要聲道信號編碼之前的任意位置執行。
904、根據當前幀經時延對齊處理的左右聲道信號進行當前幀的聲道組合方案判決以確定當前幀的聲道組合方案。
本實施例中舉例兩種可能的聲道組合方案,以下描述中分別稱為相關性信號聲道組合方案和非相關性信號聲道組合方案。本實施例中,相關性信號聲道組合方案對應了當前幀(時延對齊後的)左右聲道信號為類正相信號的情況下,而非相關性信號聲道組合方案對應了當前幀(時延對齊後的)左右聲道信號為類反相信號的情況。當然,除了用“相關性信號聲道組合方案”和“非相關性信號聲道組合方案”來表徵這兩種可能的聲道組合方案之外,在實際應用中不限於用其他的名稱命名這兩種不同的聲道組合方案。
本實施例一些方案中,聲道組合方案判決可分為聲道組合方案初始判決和聲道組合方案修正判決。可以理解,通過進行當前幀的聲道組合方案判決,進而確定所述當前幀的聲道組合方案。其中,確定當前幀的聲道組合方案的一些舉例實施方式,可參考上述實施例的相關描述,此處不再贅述。
905、根據當前幀經時延對齊處理的左右聲道信號和當前幀的聲道組合方案標識,計算當前幀相關性信號聲道組合方案對應的聲道組合比例因數並編碼,得到當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值及其編碼索引。
具體例如,首先根據當前幀經時延對齊處理的左右聲道信號計算當前幀的左右聲道信號的幀能量。
其中,當前幀左聲道信號的幀能量rms_L滿足:
Figure 107120265-A0305-02-0084-138
其中,當前幀右聲道信號的幀能量rms_R滿足:
Figure 107120265-A0305-02-0084-140
其中,
Figure 107120265-A0305-02-0084-248
表示當前幀經時延對齊處理的左聲道信號。
其中,
Figure 107120265-A0305-02-0084-249
表示當前幀經時延對齊處理的右聲道信號。
然後,根據當前幀左聲道的幀能量和右聲道的幀能量,計算當前幀相關性信號聲道組合方案對應的聲道組合比例因數。其中,計算得到的當前幀相關性信號聲道組合方案對應的聲道組合比例因數ratio_init滿足:
Figure 107120265-A0305-02-0084-141
然後,對計算得到的當前幀相關性信號聲道組合方案對應的聲道組合比例因數ratio_init進行量化編碼,得到對應的編碼索引ratio_idx_init,及量化編碼後的當前幀相關性信號聲道組合方案對應的聲道組合比例因數 ratio_init quaratio_init qua =ratio_tabl[ratio_idx_init]
其中,ratio_tabl為標量量化的碼書。其中,量化編碼可以採用傳統的任何一種標量量化方法,例如均勻標量量化,也可以是非均勻標量量化,編碼比特數例如為5比特,這裡對標量量化的具體方法不再贅述。
量化編碼後的當前幀相關性信號聲道組合方案對應的聲道組合比例因數ratio_init qua即為得到的當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值,編碼索引ratio_idx_init即為當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值對應的編碼索引。
另外,還可根據當前幀的聲道組合方案標識tdm_SM_flag的值,對當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值對應的編碼索引進行修正。
例如,量化編碼為5比特的標量量化,則當tdm_SM_flag=1時,將當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值對應的編碼索引ratio_idx_init修正為某一預先設定值(例如15或其他取值);並且,可將當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值修正為ratio_init qua=ratio_tabl[15]。
值得注意的是,除了上述計算方法,還可根據時域立體聲編碼傳統技術中任何一種計算聲道組合方案對應的聲道組合比例因數的方法,計算當前幀相關性信號聲道組合方案對應的聲道組合比例因數。也可直接將當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值設置為固定值(例如0.5或其他值)。
906、可根據聲道組合比例因數修正標識來判決是否需對聲道組合比例因數進行修正。
若是,則修正當前幀相關性信號聲道組合方案對應的聲道組合比例因數及其編碼索引,得到當前幀相關性信號聲道組合方案對應的聲道組合比例因數的修正值及其編碼索引。
其中,當前幀的聲道組合比例因數修正標識記作tdm_SM_modi_flag。例如聲道組合比例因數修正標識取值為0,表示無需進行聲道組合比例因數的修正,聲道組合比例因數修正標識取值為1,表示需進行聲道組合比例因數的修正。當然聲道組合比例因數修正標識也可選用其它不同的取值來表示是否需進行聲道組合比例因數的修正。
例如,根據聲道組合比例因數修正標識判決是否需對聲道組合比例因數進行修正具體可包括:例如若聲道組合比例因數修正標識tdm_SM_modi_flag=1,則判決需對聲道組合比例因數進行修正。又例如若聲道組合比例因數修正標識tdm_SM_modi_flag=0,則判決無需對聲道組合比例因數進行修正。
其中,修正當前幀相關性信號聲道組合方案對應的聲道組合比例因數及其編碼索引具體可以包括:例如當前幀相關性信號聲道組合方案對應的聲道組合比例因數的修正值對應的編碼索引滿足:ratio_idx_mod=05*(tdm_last_ratio_idx+16),其中,tdm_last_ratio_idx為上一幀相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引。
那麼,當前幀相關性信號聲道組合方案對應的聲道組合比例因數的修正值ratio_mod qua滿足:ratio_mod qua=ratio_tabl[ratio_idx_mod]。
907、根據當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值及其編碼索引、當前幀相關性信號聲道組合方案對應的聲道組合比例因數的修正值及其編碼索引、以及聲道組合比例因數修正標識,確定當前幀相 關性信號聲道組合方案對應的聲道組合比例因數ratio和編碼索引ratio_idx
具體例如,確定的相關性信號聲道組合方案對應的聲道組合比例因數ratio滿足:
Figure 107120265-A0305-02-0087-142
其中,上述ratio_init qua表示當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的初始值,上述ratio_mod qua表示當前幀的相關性信號聲道組合方案對應的聲道組合比例因數的修正值,上述tdm_SM_modi_flag表示當前幀的聲道組合比例因數修正標識。
其中,確定的相關性信號聲道組合方案對應的聲道組合比例因數對應的編碼索引ratio_idx滿足:
Figure 107120265-A0305-02-0087-143
其中,ratio_idx_init表示當前幀相關性信號聲道組合方案對應的聲道組合比例因數的初始值對應的編碼索引,ratio_idx_mod表示當前幀相關性信號聲道組合方案對應的聲道組合比例因數的修正值對應的編碼索引。
908、判斷當前幀的聲道組合方案標識是否對應非相關性信號聲道組合方案,若是則計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數並編碼,得到非相關性信號聲道組合方案對應的聲道組合比例因數和編碼索引。
首先,可判斷是否需要對計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存進行重置。
例如若當前幀的聲道組合方案標識tdm_SM_flag等於1(例如tdm_SM_flag等於1表示當前幀的聲道組合方案標識對應非相關性信號聲道組合方案),而前一幀的聲道組合方案標識tdm_last_SM_flag等於0(例如 tdm_last_SM_flag等於0表示當前幀的聲道組合方案標識對應相關性信號聲道組合方案),則表示需要對計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存進行重置。
值得注意的是,判斷是否需要對計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存進行重置,也可以通過在聲道組合方案初始判決和聲道組合方案修正判決的過程中確定歷史緩存重置標識tdm_SM_reset_flag,然後,通過判斷歷史緩存重置標識的取值來實現。例如tdm_SM_reset_flag為1,表示當前幀的聲道組合方案標識對應了非相關性信號聲道組合方案而前一幀的聲道組合方案標識對應了相關性信號聲道組合方案。例如歷史緩存重置標識tdm_SM_reset_flag等於1,表示需要對計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存進行重置。具體的重置方法有很多種,可以是將計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存中的所有參數均按照預先設定的初始值進行重置;或者也可以是將計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存中的部分參數均按照預先設定的初始值進行重置;或者還可將計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存中的部分參數均按照預先設定的初始值進行重置,而另一部分參數按照計算相關性信號聲道組合方案對應的聲道組合比例因數用到的歷史緩存中對應的參數值進行重置。
接下來,進一步判斷當前幀的聲道組合方案標識tdm_SM_flag是否對應非相關性信號聲道組合方案。其中,非相關性信號聲道組合方案是一種更加適合於對類反相立體聲信號進行時域下混的聲道組合方案。其中,在本實施例中,在當前幀的聲道組合方案標識tdm_SM_flag=1時,表徵當前幀的聲道組合方案標識對應了非相關性信號聲道組合方案;在當前幀的聲道組合方案標識 tdm_SM_flag=0時,表徵當前幀的聲道組合方案標識對應了相關性信號聲道組合方案。
判斷當前幀的聲道組合方案標識是否對應非相關性信號聲道組合方案具體可包括:判斷當前幀的聲道組合方案標識的值是否為1。若當前幀的聲道組合方案標識tdm_SM_flag=1,表示當前幀的聲道組合方案標識對應非相關性信號聲道組合方案。在這種情況下,可計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數並編碼。
參見第9-B圖,計算當前幀非相關性信號聲道組合方案對應的聲道組合比例因數並編碼例如可包括如下的步驟9081-9085。
9081、對當前幀經時延對齊處理的左右聲道信號進行信號能量分析。
分別得到當前幀左聲道信號的幀能量、當前幀右聲道信號的幀能量、當前幀左聲道的長時平滑幀能量、當前幀右聲道的長時平滑幀能量、當前幀左聲道的幀間能量差異和當前幀右聲道的幀間能量差異。
例如當前幀左聲道信號的幀能量rms_L滿足:
Figure 107120265-A0305-02-0089-144
其中,當前幀右聲道信號的幀能量rms_R滿足:
Figure 107120265-A0305-02-0089-146
其中,
Figure 107120265-A0305-02-0089-250
表示當前幀經時延對齊處理的左聲道信號。
其中,
Figure 107120265-A0305-02-0089-251
表示當前幀經時延對齊處理的右聲道信號。
例如當前幀左聲道的長時平滑幀能量tdm_lt_rms_L_SM cur滿足:tdm_lt_rms_L_SM cur=(1-A)*tdm_lt_rms_L_SM pre+A*rms_L
其中,tdm_lt_rms_L_SM pre表示前一幀左聲道的長時平滑幀能量,A 表示左聲道長時平滑幀能量的更新因數,A例如可以取0到1之間的實數,A例如可等於0.4。
例如當前幀右聲道的長時平滑幀能量tdm_lt_rms_R_SM cur滿足:tdm_lt_rms_R_SM cur=(1-B)*tdm_lt_rms_R_SM pre+B*rms_R
其中,tdm_lt_rms_R_SM pre表示前一幀右聲道的長時平滑幀能量,B表示右聲道長時平滑幀能量的更新因數,B例如可以取0到1之間的實數,B例如可以和左聲道長時平滑幀能量的更新因數取相同或不同的數值,B例如也可等於0.4。
例如當前幀左聲道的幀間能量差異ener_L_dt滿足:ener_L_dt=tdm_lt_rms_L_SM cur-tdm_lt_rms_L_SM pre
例如當前幀右聲道的幀間能量差異ener_R_dt滿足:ener_R_dt=tdm_lt_rms_R_SM cur-tdm_lt_rms_R_SM pre
9082、根據當前幀經時延對齊處理的左右聲道信號確定當前幀的參考聲道信號。參考聲道信號也可被稱作單聲道信號,若將參考聲道信號稱作單聲道信號,則後續所有與參考聲道相關的描述和參數命名,則可以統一將參考聲道信號替換為單聲道信號。
例如參考聲道信號mono_i(n)滿足:
Figure 107120265-A0305-02-0090-147
其中,
Figure 107120265-A0305-02-0090-252
為當前幀經時延對齊處理的左聲道信號,其中,
Figure 107120265-A0305-02-0090-253
為當前幀經時延對齊處理的右聲道信號。
9083、分別計算當前幀經時延對齊處理的左右聲道信號與參考聲道信號之間的幅度相關性參數。
例如,當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的 幅度相關性參數corr_LM例如滿足:
Figure 107120265-A0305-02-0091-148
例如當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數corr_RM例如滿足:
Figure 107120265-A0305-02-0091-149
其中,
Figure 107120265-A0305-02-0091-254
表示當前幀經時延對齊處理的左聲道信號。其中,
Figure 107120265-A0305-02-0091-255
表示當前幀經時延對齊處理的右聲道信號。mono_i(n)表示當前幀的參考聲道信號。|˙|表示取絕對值。
9084、根據當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀左右聲道之間的幅度相關性差異參數diff_lt_corr
可以理解,步驟9081可在步驟9082、9083之前執行,或者也可以在步驟9082、9083之後且在步驟9084之前執行。
參見第9-C圖,例如,計算當前幀左右聲道之間的幅度相關性差異參數diff_lt_corr具體可包括如下步驟90841-90842。
90841、根據當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數,以及當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數。
例如一種計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,可包括:當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數tdm_lt_corr_LM_SM滿足:tdm_lt_corr_LM_SM cur=α*tdm_lt_corr_LM_SM pre+(1-α)corr_LM
其中,tdm_lt_corr_LM_SM cur表示當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_LM_SM pre表示前一幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,α表示左聲道平滑因數,其中,α可以是預先設定的0到1之間的實數,如0.2、0.5、0.8。或者,α的取值也可以通過自我調整計算得到。
例如當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數tdm_lt_corr_RM_SM滿足:tdm_lt_corr_RM_SM cur=β*tdm_lt_corr_RM_SM pre+(1-β)corr_LM
其中,tdm_lt_corr_RM_SM cur表示當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM pre表示前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,β表示右聲道平滑因數,其中,β可以是預先設定的0到1之間的實數,β可以和左聲道平滑因數α取值相同或不同,例如β可等於0.2、0.5、0.8。或者β的取值也可以通過自我調整計算得到。
另一種計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數的方法,可包括:首先,對當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數corr_LM進行修正,得到修正後的當前幀左聲道信號與參考聲 道信號之間的幅度相關性參數corr_LM_mod;對當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數corr_RM進行修正,得到修正後的當前幀右聲道信號與參考聲道信號之間的幅度相關性參數corr_RM_mod。
然後,根據修正後的當前幀左聲道信號與參考聲道信號之間的幅度相關性參數corr_LM_mod和修正後的當前幀右聲道信號與參考聲道信號之間的幅度相關性參數corr_RM_mod,以及前一幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數tdm_lt_corr_LM_SM pre和前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數tdm_lt_corr_RM_SM pre,確定當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數diff_lt_corr_LM_tmp及前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數diff_lt_corr_RM_tmp
接下來,根據當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數diff_lt_corr_LM_tmp及前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數diff_lt_corr_RM_tmp,獲得當前幀的左右聲道之間的幅度相關性差異參數的初始值diff_lt_corr_SM;並根據獲得的當前幀的左右聲道之間的幅度相關性差異參數的初始值diff_lt_corr_SM以及前一幀的左右聲道之間的幅度相關性差異參數tdm_last_diff_lt_corr_SM,確定當前幀的左右聲道之間的幅度相關性差異的幀間變化參數d_lt_corr
最後,根據信號能量分析而獲得的當前幀左聲道信號的幀能量、當前幀右聲道信號的幀能量幀能量、當前幀左聲道的長時平滑幀能量、當前幀右聲道的長時平滑幀能量、當前幀左聲道的幀間能量差異、當前幀右聲道的幀間能量差異以及當前幀的左右聲道之間的幅度相關性差異的幀間變化參數,自我調整選擇不同的左聲道平滑因數、右聲道平滑因數,並計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數tdm_lt_corr_LM_SM以及當 前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數tdm_lt_corr_RM_SM
除以上舉例的兩種方法,還可以有很多種計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數的方法,本申請對此不作限定。
90842、根據當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀左右聲道之間的幅度相關性差異參數diff_lt_corr
例如當前幀左右聲道之間的幅度相關性差異參數diff_lt_corr滿足:diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM
其中,tdm_lt_corr_LM_SM表示當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM表示當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數。
9085、將當前幀左右聲道之間的幅度相關性差異參數diff_lt_corr轉換為聲道組合比例因數並進行編碼量化,以確定當前幀非相關性信號聲道組合方案對應的聲道組合比例因數及其編碼索引。
參見第9-D圖,將當前幀左右聲道之間的幅度相關性差異參數轉換為聲道組合比例因數的一種可能方法具體可以包括步驟90851-90853。
90851、對左右聲道之間的幅度相關性差異參數進行映射處理,使映射處理後的左右聲道之間的幅度相關性差異參數的取值範圍在[MAP_MIN,MAP_MAX]之間。
對左右聲道之間的幅度相關性差異參數進行映射處理的一種方法可包括:首先,對左右聲道之間的幅度相關性差異參數進行限幅處理,例如 經限幅處理後的左右聲道之間的幅度相關性差異參數diff_lt_corr_limit滿足:
Figure 107120265-A0305-02-0095-150
RATIO_MAX表示限幅後左右聲道之間的幅度相關性差異參數的最大值,RATIO_MIN表示限幅後左右聲道之間的幅度相關性差異參數的最小值。其中,RATIO_MAX例如為預先設定的經驗值,RATIO_MAX例如為1.5、3.0或其他值。其中,RATIO_MIN例如為預先設定的經驗值,RATIO_MIN例如為-1.5、-3.0或其他值。其中,RATIO_MAX>RATIO_MIN
然後,對限幅處理後的左右聲道之間的幅度相關性差異參數進行映射處理。映射處理後的左右聲道之間的幅度相關性差異參數diff_lt_corr_map滿足:
Figure 107120265-A0305-02-0095-151
其中,
Figure 107120265-A0305-02-0095-153
B 3=MAP_HIGH-RATIO_HIGH*A 3,或者B 3=MAP_LOW-RATIO_LOW*A 3
其中,MAP_MAX表示映射處理後的左右聲道之間的幅度相關性差異參數取值的最大值,MAP_HIGH表示映射處理後的左右聲道之間的幅度相關性差異參數取值的高門限,MAP_LOW表示映射處理後的左右聲道之間的幅度相關性差異參數取值的低門限。MAP_MIN表示映射處理後的左右聲道之間的幅度相 關性差異參數取值的最小值。
其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MIN
例如在本申請的一些實施例中,MAP_MAX可為2.0,MAP_HIGH可為1.2,MAP_LOW可為0.8,MAP_MIN可為0.0。當然實際應用中不限於這樣的取值舉例。
RATIO_MAX表示限幅後左右聲道之間的幅度相關性差異參數的最大值,RATIO_HIGH表示限幅後左右聲道之間的幅度相關性差異參數取值的高門限,RATIO_LOW表示限幅後左右聲道之間的幅度相關性差異參數取值的低門限,RATIO_MIN表示限幅後左右聲道之間的幅度相關性差異參數的最小值。
其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN
例如在本申請一些實施例中,RATIO_MAX為1.5,RATIO_HIGH為0.75,RATIO_LOW為-0.75,RATIO_MIN為-1.5。當然實際應用中不限於這樣的取值舉例。
本申請的一些實施例的另一種方法是:映射處理後的左右聲道之間的幅度相關性差異參數diff_lt_corr_map滿足:
Figure 107120265-A0305-02-0096-154
其中,diff_lt_corr_limit表示經過限幅處理後的左右聲道之間的幅度相關性差異參數。
其中,
Figure 107120265-A0305-02-0096-155
其中,RATIO_MAX表示左右聲道之間的幅度相關性差異參數的最大幅度,-RATIO_MAX表示左右聲道之間的幅度相關性差異參數的最小幅度。其中, RATIO_MAX可以為預先設定的經驗值,RATIO_MAX例如可為1.5、3.0或其他大於0的實數。
90852、將映射處理後的左右聲道之間的幅度相關性差異參數轉換為聲道組合比例因數。
聲道組合比例因數ratio_SM滿足:
Figure 107120265-A0305-02-0097-156
其中,cos(˙)表示余弦運算。
除了上述方法之外,還可以通過其他方法將左右聲道之間的幅度相關性差異參數轉換為聲道組合比例因數,例如:根據信號能量分析而獲得的當前幀左聲道的長時平滑幀能量、當前幀右聲道的長時平滑幀能量、當前幀左聲道的幀間能量差異、編碼器歷史緩存中的緩存前一幀的編碼參數(例如主要聲道信號的幀間相關性參數、次要聲道信號的幀間相關性參數)、當前幀以及前一幀的聲道組合方案標識、當前幀以及前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數,確定是否對非相關性信號聲道組合方案對應的聲道組合比例因數進行更新。
若需要對非相關性信號聲道組合方案對應的聲道組合比例因數進行更新,則使用上述舉例方法將左右聲道之間的幅度相關性差異參數轉換為聲道組合比例因數;否則,直接將前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數及其編碼索引,作為當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數及其編碼索引。
90853、對轉換後得到的聲道組合比例因數進行量化編碼,確定當前幀非相關性信號聲道組合方案對應的聲道組合比例因數。
具體例如,對轉換後得到的聲道組合比例因數進行量化編碼,得到 當前幀非相關性信號聲道組合方案對應的初始編碼索引ratio_idx_init_SM,及量化編碼後的當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的初始值ratio_init_SM qua
其中,ratio_init_SM qua=ratio_tabl_SM[ratio_idx_init_SM]。
其中,ratio_tabl_SM表示非相關性信號聲道組合方案對應的聲道組合比例因數標量量化的碼書。量化編碼可以採用傳統技術中的任何一種標量量化方法,如均勻標量量化,也可以是非均勻標量量化,編碼比特數可以是5比特,這裡對具體方法不再贅述。非相關性信號聲道組合方案對應的聲道組合比例因數標量量化的碼書可以採用和相關性信號聲道組合方案對應的聲道組合比例因數標量量化的碼書相同或不同的碼書。其中,當碼書相同,這樣可只需要存儲一個用於聲道組合比例因數標量量化的碼書即可。此時,量化編碼後的當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的初始值ratio_init_SM qua
其中,ratio_init_SM qua=ratio_tabl[ratio_idx_init_SM]。
例如,一種方法是將量化編碼後的當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的初始值直接作為當前幀非相關性信號聲道組合方案對應的聲道組合比例因數,並將當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的初始編碼索引直接作為當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引,即:其中,當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引ratio_idx_SM滿足:ratio_idx_SM=ratio_idx_init_SM
其中,當前幀非相關性信號聲道組合方案對應的聲道組合比例因數滿足:ratio_SM=ratio_tabl[ratio_idx_SM]
另一種方法可以是:根據前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引或者前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數,對量化編碼後的當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的初始值以及當前幀非相關性信號聲道組合方案對應的初始編碼索引進行修正,將修正後的當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引作為當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引,將修正後的非相關性信號聲道組合方案對應的聲道組合比例因數作為當前幀非相關性信號聲道組合方案對應的聲道組合比例因數。
其中,當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引ratio_idx_SM滿足:
Figure 107120265-A0305-02-0099-179
其中,ratio_idx_init_SM表示當前幀非相關性信號聲道組合方案對應的初始編碼索引,tdm_last_ratio_idx_SM為前一幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引,φ為非相關性信號聲道組合方案對應的聲道組合比例因數的修正因數。φ的取值可為經驗值,例如φ可等於0.8。
則當前幀非相關性信號聲道組合方案對應的聲道組合比例因數滿足:ratio_SM=ratio_tabl[ratio_idx_SM]
還有一種方法是:將未量化的非相關性信號聲道組合方案對應的聲道組合比例因數,作為當前幀非相關性信號聲道組合方案對應的聲道組合比例因數,即當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的ratio_SM滿足:
Figure 107120265-A0305-02-0100-157
此外,第四種方法是:根據前一幀的非相關性信號聲道組合方案對應的聲道組合比例因數,對未量化的當前幀非相關性信號聲道組合方案對應的聲道組合比例因數進行修正,將修正後的非相關性信號聲道組合方案對應的聲道組合比例因數,作為當前幀非相關性信號聲道組合方案對應的聲道組合比例因數,並對其進行量化編碼,得到當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引。
除以上述方法,還可以有很多種方法來將左右聲道之間的幅度相關性差異參數轉換為聲道組合比例因數並進行編碼量化,同樣也有很多不同的方法來確定當前幀非相關性信號聲道組合方案對應的聲道組合比例因數及其編碼索引,本申請對此不作限定。
909、根據前一幀的聲道組合方案標識和當前幀的聲道組合方案標識進行編碼模式判決,以確定當前幀的編碼模式。
其中,當前幀的聲道組合方案標識記作tdm_SM_flag,前一幀的聲道組合方案標識記作tdm_last_SM_flag,前一幀的聲道組合方案標識和當前幀的聲道組合方案標識的聯合標識可以表示為(tdm_last_SM_flag,tdm_SM_flag),可根據此聯合標識來進行編碼模式判決,具體例如:假設相關性信號聲道組合方案用0表示,非相關性信號聲道組合方案用1表示,則前一幀和當前幀的聲道組合方案標識的聯合標識有以下四種情況(01),(11),(10),(00),則當前幀的編碼模式分別判決為:相關性信號編碼模式,非相關性信號編碼模式,相關性信號到非相關性信號編碼模式,非相關性信號到相關性信號編碼模式。例如:當前幀的聲道組合方案標識的聯合標識為(00),則表示當前幀的編碼模式為相關性信號編碼模式;當前幀的聲道組合 方案標識的聯合標識為(11)則表示當前幀的編碼模式為非相關性信號編碼模式;當前幀的聲道組合方案標識的聯合標識為(01)則表示當前幀的編碼模式為相關性信號到非相關性信號編碼模式;當前幀的聲道組合方案標識的聯合標識為(10)則表示當前幀的編碼模式為非相關性信號到相關性信號編碼模式。
910、在獲得當前幀的編碼模式stereo_tdm_coder_type之後,編碼裝置根據當前幀的編碼模式採用對應的時域下混處理方法對當前幀的左右聲道信號進行時域下混處理,以得到當前幀的主要聲道信號和次要聲道信號。
其中,所述當前幀的編碼模式為多種編碼模式中的其中一種。例如所述多種編碼模式可包括:相關性信號到非相關性信號編碼模式、非相關性信號到相關性信號編碼模式、相關性信號編碼模式和非相關性信號編碼模式等。 其中,不同編碼模式進行時域下混處理的實施方式,可參考上述實施例中的相關舉例描述,此處不再贅述。
911、編碼裝置對主要聲道信號和次要聲道信號分別進行編碼,得到主要聲道編碼信號和次要聲道編碼信號。
具體地,可以先根據前一幀的主要聲道信號和/或次要聲道信號編碼中得到的參數資訊以及主要聲道信號編碼和次要聲道信號編碼的總比特數,對主要聲道信號編碼和次要聲道信號編碼進行比特分配。然後根據比特分配的結果,分別對主要聲道信號和次要聲道信號進行編碼,得到主要聲道編碼的編碼索引、次要聲道編碼的編碼索引。主要聲道編碼和次要聲道編碼,可以採用任何一種單聲道音訊編碼技術,這裡不再贅述。
912、編碼裝置根據聲道組合方案標識選擇相應的聲道組合比例因數編碼索引寫入碼流,並將主要聲道編碼信號、次要聲道編碼信號以及當前幀的聲道組合方案標識寫入碼流。
具體例如,若當前幀的聲道組合方案標識tdm_SM_flag對應了相關性 信號聲道組合方案,則將當前幀相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引ratio_idx寫入碼流;若當前幀的聲道組合方案標識tdm_SM_flag對應了非相關性信號聲道組合方案,則將當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引ratio_idx_SM寫入碼流。例如,tdm_SM_flag=0,則將當前幀相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引ratio_idx寫入碼流;tdm_SM_flag=1,則將當前幀非相關性信號聲道組合方案對應的聲道組合比例因數的編碼索引ratio_idx_SM寫入碼流。
並且,將主要聲道編碼信號、次要聲道編碼信號以及當前幀的聲道組合方案標識寫入位元流。可以理解,寫碼流操作無先後順序。
相應的,下麵針對時域立體聲的解碼場景進行舉例說明。
參見第10圖,下面還提供一種音訊解碼方法,音訊解碼方法的相關步驟可由解碼裝置來具體實施,具體可包括:1001、根據碼流進行解碼以得到當前幀的主次聲道解碼信號。
1002、根據碼流進行解碼以得到當前幀的時域立體聲參數。
其中,當前幀的時域立體聲參數包括當前幀的聲道組合比例因數(碼流包含的是當前幀的聲道組合比例因數的編碼索引,基於當前幀的聲道組合比例因數的編碼索引進行解碼可以得到當前幀的聲道組合比例因數),還可包括當前幀的聲道間時間差(例如,碼流包含的是當前幀的聲道間時間差的編碼索引,基於當前幀的聲道間時間差的編碼索引進行解碼可以得到當前幀的聲道間時間差;或者碼流包含的是當前幀的聲道間時間差的絕對值得編碼索引,基於當前幀的聲道間時間差的絕對值的編碼索引進行解碼可以得到當前幀的聲道間時間差的絕對值)等。
1003、基於碼流得到所述碼流中包含的當前幀的聲道組合方案標識,確定所述當前幀的聲道組合方案。
1004、基於所述當前幀的聲道組合方案和前一幀的聲道組合方案確定當前幀的解碼模式。
其中,基於所述當前幀的聲道組合方案和前一幀的聲道組合方案確定當前幀的解碼模式,可參考步驟909中確定當前幀的編碼模式的方法,根據所述當前幀的聲道組合方案和前一幀的聲道組合方案確定當前幀的解碼模式。其中,所述當前幀的解碼模式為多種解碼模式中的其中一種。例如所述多種解碼模式可包括:相關性信號到非相關性信號解碼模式、非相關性信號到相關性信號解碼模式、相關性信號編碼模式和非相關性信號解碼模式等。編碼模式和解碼模式是一一對應的。
例如,當前幀的聲道組合方案標識的聯合標識為(00)則表示當前幀的解碼模式也為相關性信號解碼模式;當前幀的聲道組合方案標識的聯合標識為(11)則表示當前幀的解碼模式為非相關性信號解碼模式;當前幀的聲道組合方案標識的聯合標識為(01)則表示當前幀的解碼模式為相關性信號到非相關性信號解碼模式;當前幀的聲道組合方案標識的聯合標識為(10)則表示當前幀的解碼模式為非相關性信號到相關性信號解碼模式。
可以理解,步驟1001、步驟1002、步驟1003-1004的執行沒有必然的先後順序。
1005、採用確定的當前幀的解碼模式對應的時域上混處理方式,對所述當前幀的主次聲道解碼信號進行時域上混處理以得到所述當前幀的左右聲道重建信號。
其中,不同解碼模式進行時域上混處理的相關實施方式,可參考上述實施例中的相關舉例描述,此處不再贅述。
其中,時域上混處理所使用的上混矩陣基於得到的當前幀的聲道組合比例因數構建。
其中,當前幀的左右聲道重建信號可作為所述當前幀的左右聲道解碼信號。
或者,進一步的,還可基於當前幀的聲道間時間差對所述當前幀的左右聲道重建信號進行時延調整,得到當前幀經時延調整的左右聲道重建信號,當前幀經時延調整的左右聲道重建信號可作為當前幀的左右聲道解碼信號。或者,進一步的,還可對當前幀經時延調整的左右聲道重建信號進行時域後處理,其中,當前幀經時域後處理的左右聲道重建信號可作為所述當前幀的左右聲道解碼信號。
上述詳細闡述了本申請實施例的方法,下面提供了本申請實施例的裝置。
上述詳細闡述了本申請實施例的方法,下面提供了本申請實施例的裝置。
參見第11-A圖,本申請實施例還提供一種裝置1100,可包括:相互耦合的處理器1110和記憶體1120。所述處理器1110可用於執行本申請實施例提供的任意一種方法的部分或全部步驟。
記憶體1120包括但不限於是隨機存儲記憶體(英文:Random Access Memory簡稱:RAM)、唯讀記憶體(英文:Read-Only Memory簡稱:ROM)、可擦除可程式設計唯讀記憶體(英文:Erasable Programmable Read Only Memory,簡稱:EPROM)、或可擕式唯讀記憶體(英文:Compact Disc Read-Only Memory,簡稱:CD-ROM),該記憶體402用於相關指令及資料。
當然,裝置1100還可包括用於接收和發送資料的收發器1130。
處理器1110可以是一個或多個中央處理器(英文:Central Processing Unit,簡稱:CPU),在處理器1110是一個CPU的情況下,該CPU可以是單核CPU,也可以是多核CPU。處理器1110具體可以是數位訊號處理器。
在實現過程中,上述方法的各步驟可通過處理器1110中的硬體的集成邏輯電路或者軟體形式的指令完成。上述處理器1110可以是通用處理器、數位訊號處理器、專用積體電路、現成可程式設計閘陣列或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。處理器1110可以實現或者執行本發明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本發明實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成,或者用解碼處理器中的硬體及軟體模組組合執行完成。
軟體模組可以位於隨機記憶體,快閃記憶體、唯讀記憶體,可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、寄存器等等本領域成熟的存儲器之中。該存儲器位於記憶體1120,例如處理器1110可讀取記憶體1120中的資訊,結合其硬體完成上述方法的步驟。
進一步的,裝置1100還可包括收發器1130,收發器1130例如可用於相關資料(例如指令或聲道信號或碼流)的收發。
舉例來說,裝置1100可執行上述第2圖-圖9任意一附圖所示實施例中對應的方法的部分或全部步驟。
具體例如,當裝置1100執行上述編碼的相關步驟時,裝置1100可稱為編碼裝置(或音訊編碼裝置)。當裝置1100執行上述解碼的相關步驟時,裝置1100可稱為解碼裝置(或音訊解碼裝置)。
參見第11-B圖,在裝置1100為編碼裝置的情況下,裝置1100例如還可進一步包括:麥克風1140和模數轉換器1150等。
其中,麥克風1140例如可用於採樣得到類比音訊信號。
模數轉換器1150例如可用於將類比音訊信號轉換為數位音訊信號。
參見第11-C圖,在裝置1100為編碼裝置的情況下,裝置1100例如還可 進一步包括:揚聲器1160和數模轉換器1170等。
數模轉換器1170例如可用於將數位音訊信號轉換為類比音訊信號。
其中,揚聲器1160例如可用於播放類比音訊信號。
此外,參見第12-A圖,本申請實施例提供一種裝置1200,包括用於實施本申請實施例提供的任意一種方法的若干個功能單元。
例如,當裝置1200執行第2圖所示實施例中對應的方法時,裝置1200可包括:第一確定單元1210,用於確定當前幀的聲道組合方案,基於前一幀和當前幀的聲道組合方案確定當前幀的編碼模式。
編碼單元1220,用於基於當前幀的編碼模式所對應的時域下混處理對當前幀的左右聲道信號進行時域下混處理,以得到當前幀的主次聲道信號。
此外,參見第12-B圖,裝置1200還可包括第二確定單元1230,用於確定當前幀的時域立體聲參數。編碼單元1220還可用於對當前幀的時域立體聲參數進行編碼。
又例如,參見第12-C圖,當裝置1200執行第3圖所示實施例中對應的方法時,裝置1200可包括:第三確定單元1240,用於基於碼流中的當前幀的聲道組合方案標識確定當前幀的聲道組合方案;根據前一幀的聲道組合方案和所述當前幀的聲道組合方案,確定所述當前幀的解碼模式。
解碼單元1250,用於基於碼流解碼得到當前幀的主次聲道解碼信號;基於當前幀的解碼模式所對應的時域上混處理對當前幀的主次聲道解碼信號進行時域上混處理,以得到當前幀的左右聲道重建信號。
這個裝置執行其他方法時的情況以此類推。
本申請實施例提供一種電腦可讀存儲器,所述電腦可讀存儲器存儲 了程式碼,其中,所述程式碼包括用於執行本申請實施例提供的任意一種方法的部分或全部步驟的指令。
本申請實施例提供一種電腦程式產品,當所述電腦程式產品在電腦上運行時,使得所述電腦執行本申請實施例提供的任意一種方法的部分或全部步驟。
在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置,可通過其它的方式實現。例如以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可結合或者可以集成到另一個系統,或一些特徵可以忽略或不執行。另一點,所顯示或討論的相互之間的間接耦合或者直接耦合或通信連接可以是通過一些介面,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例的方案的目的。
另外,在本發明各實施例中的各功能單元可集成在一個處理單元中,也可以是各單元單獨物理存在,也可兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,或者也可以採用軟體功能單元的形式實現。
所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個電腦可讀取存儲器中。基於這樣的理解,本發 明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該電腦軟體產品存儲在一個存儲器中,包括若干指令用以使得一台電腦設備(可為個人電腦、伺服器或者網路設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲器包括:U盤、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以存儲程式碼的介質。
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
201~203:步驟

Claims (27)

  1. 一種時域立體聲參數的編碼方法,應用於編碼裝置對音頻信號的當前幀的編碼,所述編碼方法包括:從所述音頻信號的多種聲道組合方案中確定所述當前幀的聲道組合方案,所述多種聲道組合方案包括非相關性信號聲道組合方案和相關性信號聲道組合方案,所述相關性信號聲道組合方案為類正相信號對應的聲道組合方案;所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案;根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數;對確定的所述當前幀的時域立體聲參數進行編碼,所述時域立體聲參數包括聲道組合比例因數和聲道間時間差中的至少一種;其中,所述類正相信號對應的聲道組合方案為左聲道信號和右聲道信號相位差屬於[180°-θ1,180°+θ1]的聲道組合方案,所述類反相信號對應的聲道組合方案為左聲道信號和右聲道信號相位差屬於[-θ22]的聲道組合方案,其中0°<θ1<90°,0°<θ2<90°。
  2. 根據請求項1所述的方法,其中,在確定所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;在確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。
  3. 根據請求項1或2所述的方法,其中,所述根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數,包括:根據所述當前幀的左聲道信號和右聲道信號獲得所述當前幀的參考聲道信號; 計算所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數;計算所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數;根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數;根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
  4. 根據請求項3所述的方法,其中,
    Figure 107120265-A0305-02-0111-158
    其中,
    Figure 107120265-A0305-02-0111-160
    其中,所述mono_i(n)表示所述當前幀的參考聲道信號,其中,所述
    Figure 107120265-A0305-02-0111-256
    表示所述當前幀經時延對齊處理的左聲道信號;所述
    Figure 107120265-A0305-02-0111-257
    表示所述當前幀經時延對齊處理的右聲道信號;所述corr_LM表示所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數,所述corr_RM表示所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數。
  5. 根據請求項3所述的方法,其中,所述根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數,包括:根據當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關 性參數;根據當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀左右聲道之間的幅度相關性差異參數。
  6. 根據請求項5所述的方法,其中,tdm_lt_corr_LM_SM cur=α*tdm_lt_corr_LM_SM pre+(1-α)corr_LM;其中,tdm_lt_rms_L_SM cur=(1-A)*tdm_lt_rms_L_SM pre+A*rms_L,所述A表示所述當前幀的左聲道信號的長時平滑幀能量的更新因數;所述tdm_lt_rms_L_SM cur表示所述當前幀的左聲道信號的長時平滑幀能量;其中,所述rms_L表示所述當前幀左聲道信號的幀能量;其中,tdm_lt_corr_LM_SM cur表示當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_LM_SM pre表示前一幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,α為左聲道平滑因數;tdm_lt_corr_RM_SM cur=β*tdm_lt_corr_RM_SM pre+(1-β)corr_LM其中,tdm_lt_rms_R_SM cur=(1-B)*tdm_lt_rms_R_SM pre+B*rms_R;所述B表示所述當前幀的右聲道信號的長時平滑幀能量的更新因數;所述tdm_lt_rms_R_SM pre表示所述當前幀的右聲道信號的長時平滑幀能量;其中,所述rms_R表示所述當前幀右聲道信號的幀能量;其中,tdm_lt_corr_RM_SM cur表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM pre表示前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,β為右聲道平滑因數。
  7. 根據請求項5所述的方法,其中, diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;其中,tdm_lt_corr_LM_SM表示所述當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,所述diff_lt_corr表示所述當前幀左右聲道信號之間的幅度相關性差異參數。
  8. 根據請求項5所述的方法,其中,所述根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數,包括:對所述當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理,使映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的取值範圍在[MAP_MIN,MAP_MAX]之間;將映射處理後的左右聲道信號之間的幅度相關性差異參數轉換為聲道組合比例因數。
  9. 根據請求項8所述的方法,其中,所述對所述當前幀的左右聲道之間的幅度相關性差異參數進行映射處理,包括:對所述當前幀的左右聲道信號之間的幅度相關性差異參數進行限幅處理;對經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理。
  10. 根據請求項9所述的方法,其中,
    Figure 107120265-A0305-02-0113-161
    其中,RATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_MIN表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值,RATIO_MAX>RATIO_MIN
  11. 根據請求項9所述的方法,其中,
    Figure 107120265-A0305-02-0114-162
    其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;其中,MAP_MAX表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值;MAP_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限;MAP_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限;MAP_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值;其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MINRATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限,RATIO_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限,RATIO_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值;其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN
  12. 根據請求項9所述的方法,其中,
    Figure 107120265-A0305-02-0115-163
    其中,diff_lt_corr_limit表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;其中,
    Figure 107120265-A0305-02-0115-164
    其中,所述RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大幅度,所述-RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小幅度。
  13. 根據請求項10所述的方法,其中,
    Figure 107120265-A0305-02-0115-165
    其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數,所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
  14. 一種時域立體聲參數的編碼裝置,應用於音頻信號的當前幀,所述編碼裝置包括:相互耦合的處理器和記憶體;所述處理器用於執行如下步驟:從所述音頻信號的多種聲道組合方案中確定所述當前幀的聲道組合方案,所述多種聲道組合方案包括非相關性信號聲道組合方案和相關性信號聲道組合方案,所述相關性信號聲道組合方案為類正相信號對應的聲道組合方案;所述非相關性信號聲道組合方案為類反相信號對應的聲道組合方案; 根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數;對確定的所述當前幀的時域立體聲參數進行編碼,所述時域立體聲參數包括聲道組合比例因數和聲道間時間差中的至少一種;其中,所述類正相信號對應的聲道組合方案為左聲道信號和右聲道信號相位差屬於[180°-θ1,180°+θ1]的聲道組合方案,所述類反相信號對應的聲道組合方案為左聲道信號和右聲道信號相位差屬於[-θ22]的聲道組合方案,其中0°<θ1<90°,0°<θ2<90°。
  15. 根據請求項14所述的裝置,其中,在確定所述當前幀的聲道組合方案為相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的相關性信號聲道組合方案對應的時域立體聲參數;在確定所述當前幀的聲道組合方案為非相關性信號聲道組合方案的情況下,所述當前幀的時域立體聲參數為所述當前幀的非相關性信號聲道組合方案對應的時域立體聲參數。
  16. 根據請求項14或15所述的裝置,其中,所述處理器根據所述當前幀的聲道組合方案確定所述當前幀的時域立體聲參數,包括:根據所述當前幀的左聲道信號和右聲道信號獲得所述當前幀的參考聲道信號;計算所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數;計算所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數;根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數;根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
  17. 根據請求項16所述的裝置,其中,
    Figure 107120265-A0305-02-0117-167
    其中,
    Figure 107120265-A0305-02-0117-170
    其中,所述mono_i(n)表示所述當前幀的參考聲道信號;其中,所述
    Figure 107120265-A0305-02-0117-258
    表示所述當前幀經時延對齊處理的左聲道信號;所述
    Figure 107120265-A0305-02-0117-259
    表示所述當前幀經時延對齊處理的右聲道信號;所述corr_LM表示所述當前幀的左聲道信號與參考聲道信號之間的幅度相關性參數,所述corr_RM表示所述當前幀的右聲道信號與參考聲道信號之間的幅度相關性參數。
  18. 根據請求項16所述的裝置,其中,所述處理器根據所述當前幀的左右聲道信號與參考聲道信號之間的幅度相關性參數,計算所述當前幀的左右聲道信號之間的幅度相關性差異參數,包括:根據當前幀經時延對齊處理的左聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀經時延對齊處理的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數;根據當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數及當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,計算當前幀左右聲道之間的幅度相關性差異參數。
  19. 根據請求項18所述的裝置,其中, tdm_lt_corr_LM_SM cur=α*tdm_lt_corr_LM_SM pre+(1-α)corr_LM;其中,tdm_lt_rms_L_SM cur=(1-A)*tdm_lt_rms_L_SM pre+A*rms_L,所述A表示所述當前幀的左聲道信號的長時平滑幀能量的更新因數;所述tdm_lt_rms_L_SM cur表示所述當前幀的左聲道信號的長時平滑幀能量;其中,所述rms_L表示所述當前幀左聲道信號的幀能量;其中,tdm_lt_corr_LM_SM cur表示當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_LM_SM pre表示前一幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,α為左聲道平滑因數;tdm_lt_corr_RM_SM cur=β*tdm_lt_corr_RM_SM pre+(1-β)corr_LM;其中,tdm_lt_rms_R_SM cur=(1-B)*tdm_lt_rms_R_SM pre+B*rms_R;所述B表示所述當前幀的右聲道信號的長時平滑幀能量的更新因數;所述tdm_lt_rms_R_SM pre表示所述當前幀的右聲道信號的長時平滑幀能量;其中,所述rms_R表示所述當前幀右聲道信號的幀能量;其中,tdm_lt_corr_RM_SM cur表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM pre表示前一幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,β為右聲道平滑因數。
  20. 根據請求項18所述的裝置,其中,diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;其中,tdm_lt_corr_LM_SM表示所述當前幀長時平滑後的左聲道信號與參考聲道信號之間的幅度相關性參數,tdm_lt_corr_RM_SM表示所述當前幀長時平滑後的右聲道信號與參考聲道信號之間的幅度相關性參數,所述diff_lt_corr表示所述當前幀左右聲道信號之間的幅度相關性差異參數。
  21. 根據請求項18所述的裝置,其中,所述處理器根據所述當前幀的左右聲道信號之間的幅度相關性差異參數,計算所述當前幀的非相關性信號聲 道組合方案對應的聲道組合比例因數,包括:對所述當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理,使映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的取值範圍在[MAP_MIN,MAP_MAX]之間;將映射處理後的左右聲道信號之間的幅度相關性差異參數轉換為聲道組合比例因數。
  22. 根據請求項21所述的裝置,其中,所述處理器對所述當前幀的左右聲道之間的幅度相關性差異參數進行映射處理,包括:對所述當前幀的左右聲道信號之間的幅度相關性差異參數進行限幅處理;對經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數進行映射處理。
  23. 根據請求項22所述的裝置,其中,
    Figure 107120265-A0305-02-0119-171
    其中,RATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_MIN表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值,RATIO_MAX>RATIO_MIN
  24. 根據請求項22所述的裝置,其中,
    Figure 107120265-A0305-02-0119-172
    其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;其中,MAP_MAX表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值;MAP_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限;MAP_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限;MAP_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值;其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MINRATIO_MAX表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大值,RATIO_HIGH表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的高門限,RATIO_LOW表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的低門限,RATIO_MIN表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小值;其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN
  25. 根據請求項22所述的裝置,其中,
    Figure 107120265-A0305-02-0120-173
    其中,diff_lt_corr_limit表示經限幅處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數;其中,
    Figure 107120265-A0305-02-0121-174
    其中,所述RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最大幅度,所述-RATIO_MAX表示所述當前幀的左右聲道信號之間的幅度相關性差異參數的最小幅度。
  26. 根據請求項21所述的裝置,其中,
    Figure 107120265-A0305-02-0121-176
    其中,所述diff_lt_corr_map表示經映射處理後的所述當前幀的左右聲道信號之間的幅度相關性差異參數,所述ratio_SM表示所述當前幀的非相關性信號聲道組合方案對應的聲道組合比例因數。
  27. 一種電腦可讀存儲器,其中,所述電腦可讀存儲器存儲了程式碼,所述程式碼包括用於執行請求項1或2所述方法的指令。
TW107120265A 2017-08-10 2018-06-13 時域立體聲參數的編碼方法和相關產品 TWI691953B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??201710680858.0 2017-08-10
CN201710680858.0 2017-08-10
CN201710680858.0A CN109389986B (zh) 2017-08-10 2017-08-10 时域立体声参数的编码方法和相关产品

Publications (2)

Publication Number Publication Date
TW201911293A TW201911293A (zh) 2019-03-16
TWI691953B true TWI691953B (zh) 2020-04-21

Family

ID=65273327

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107120265A TWI691953B (zh) 2017-08-10 2018-06-13 時域立體聲參數的編碼方法和相關產品

Country Status (9)

Country Link
US (2) US11727943B2 (zh)
EP (1) EP3657498B1 (zh)
JP (3) JP6977147B2 (zh)
KR (4) KR20240016461A (zh)
CN (5) CN117037814A (zh)
BR (1) BR112020002626A2 (zh)
SG (1) SG11202001144WA (zh)
TW (1) TWI691953B (zh)
WO (1) WO2019029680A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037814A (zh) * 2017-08-10 2023-11-10 华为技术有限公司 时域立体声参数的编码方法和相关产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200701821A (en) * 2005-04-15 2007-01-01 Fraunhofer Ges Forschung Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US20070063877A1 (en) * 2005-06-17 2007-03-22 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
WO2015011055A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
CN105556596A (zh) * 2013-07-22 2016-05-04 弗朗霍夫应用科学研究促进协会 使用基于残差信号调整解相关信号贡献的多声道音频解码器、多声道音频编码器、方法和计算机程序
US20160247515A1 (en) * 2007-06-29 2016-08-25 Microsoft Technology Licensing, Llc Bitstream syntax for multi-process audio decoding
US20170236522A1 (en) * 2016-02-12 2017-08-17 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
WO2006000842A1 (en) * 2004-05-28 2006-01-05 Nokia Corporation Multichannel audio extension
US8041042B2 (en) * 2006-11-30 2011-10-18 Nokia Corporation Method, system, apparatus and computer program product for stereo coding
KR101411901B1 (ko) 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
EP2283483B1 (en) * 2008-05-23 2013-03-13 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
CN101826326B (zh) 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
WO2011073600A1 (fr) * 2009-12-18 2011-06-23 France Telecom Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
CN102157151B (zh) * 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
ES2553398T3 (es) 2010-11-03 2015-12-09 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
JP5947971B2 (ja) * 2012-04-05 2016-07-06 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
US9838819B2 (en) 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
RU2730548C2 (ru) * 2015-09-25 2020-08-24 Войсэйдж Корпорейшн Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
CN108269577B (zh) 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
CN117037814A (zh) * 2017-08-10 2023-11-10 华为技术有限公司 时域立体声参数的编码方法和相关产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200701821A (en) * 2005-04-15 2007-01-01 Fraunhofer Ges Forschung Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US20070063877A1 (en) * 2005-06-17 2007-03-22 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US20160247515A1 (en) * 2007-06-29 2016-08-25 Microsoft Technology Licensing, Llc Bitstream syntax for multi-process audio decoding
WO2015011055A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
CN105556596A (zh) * 2013-07-22 2016-05-04 弗朗霍夫应用科学研究促进协会 使用基于残差信号调整解相关信号贡献的多声道音频解码器、多声道音频编码器、方法和计算机程序
US20170236522A1 (en) * 2016-02-12 2017-08-17 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Also Published As

Publication number Publication date
CN117292695A (zh) 2023-12-26
RU2020109687A (ru) 2021-09-14
JP7309813B2 (ja) 2023-07-18
BR112020002626A2 (pt) 2020-07-28
US11727943B2 (en) 2023-08-15
CN109389986B (zh) 2023-08-22
JP6977147B2 (ja) 2021-12-08
EP3657498B1 (en) 2024-05-08
JP2022031698A (ja) 2022-02-22
EP3657498A4 (en) 2020-08-12
CN117198302A (zh) 2023-12-08
JP2020529637A (ja) 2020-10-08
EP3657498A1 (en) 2020-05-27
JP2023129450A (ja) 2023-09-14
SG11202001144WA (en) 2020-03-30
KR102377434B1 (ko) 2022-03-23
CN117037814A (zh) 2023-11-10
CN109389986A (zh) 2019-02-26
KR20230020554A (ko) 2023-02-10
US20230352033A1 (en) 2023-11-02
US20200175998A1 (en) 2020-06-04
CN117133297A (zh) 2023-11-28
KR20200035119A (ko) 2020-04-01
WO2019029680A1 (zh) 2019-02-14
TW201911293A (zh) 2019-03-16
RU2020109687A3 (zh) 2021-12-20
KR102632523B1 (ko) 2024-02-02
KR102492600B1 (ko) 2023-01-30
KR20240016461A (ko) 2024-02-06
KR20220041233A (ko) 2022-03-31

Similar Documents

Publication Publication Date Title
TWI689210B (zh) 時域身歷聲編解碼方法和相關產品
TWI697892B (zh) 音訊編解碼模式確定方法和相關產品
TWI705432B (zh) 音訊編解碼方法、音頻編解碼裝置及電腦可讀存儲介質
JP2023129450A (ja) 時間領域ステレオパラメータ符号化方法および関連製品
KR102492791B1 (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품