TWI762008B - 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體 - Google Patents

編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體 Download PDF

Info

Publication number
TWI762008B
TWI762008B TW109137722A TW109137722A TWI762008B TW I762008 B TWI762008 B TW I762008B TW 109137722 A TW109137722 A TW 109137722A TW 109137722 A TW109137722 A TW 109137722A TW I762008 B TWI762008 B TW I762008B
Authority
TW
Taiwan
Prior art keywords
bit rate
processors
evs
metadata
ivas
Prior art date
Application number
TW109137722A
Other languages
English (en)
Other versions
TW202135046A (zh
Inventor
里沙普 塔吉
瓊恩 菲立克斯 托瑞斯
史蒂芬妮 伯朗
Original Assignee
美商杜拜研究特許公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商杜拜研究特許公司 filed Critical 美商杜拜研究特許公司
Publication of TW202135046A publication Critical patent/TW202135046A/zh
Application granted granted Critical
Publication of TWI762008B publication Critical patent/TWI762008B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本發明揭示在浸入式語音及音訊服務中之位元速率分布的實施例。在一實施例中,一種編碼一IVAS位元流之方法包括:接收一輸入音訊信號;將該輸入音訊信號降混成一或多個降混聲道及空間後設資料;自一位元速率分布控制表讀取該等降混聲道之一組一或多個位元速率及該空間後設資料之一組量化位準;判定該等降混聲道之該一或多個位元速率之一組合;使用一位元速率分布程序,自該組後設資料量化位準判定一後設資料量化位準;使用該後設資料量化位準來量化且編碼該空間後設資料;使用一或多個位元速率之該組合來產生該一或多個降混聲道之一降混位元流;將該降混位元流、該經量化且經編碼空間後設資料及該組量化位準組合成該IVAS位元流。

Description

編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
本發明大體上係關於音訊位元流編碼及解碼。
語音及音訊編碼器/解碼器(「編解碼器」)標準開發最近專注於開發用於浸入式語音及音訊服務(IVAS)之一編解碼器。預期IVAS支援一系列音訊服務能力,包含(但不限於)單聲道至立體聲升混及完全浸入式音訊編碼、解碼及呈現。IVAS旨在由廣泛範圍之器件、端點及網路節點支援,包含(但不限於):行動電話及智慧型電話、電子平板電腦、個人電腦、會議電話、會議室、虛擬實境(VR)及擴增實境(AR)器件、家庭劇院器件及其他適合器件。此等器件、端點及網路節點可具有用於聲音擷取及呈現之各種聲學介面。
揭示在浸入式語音及音訊服務中之位元速率分布之實施方案。
在一實施例中,一種編碼一浸入式語音及音訊服務(IVAS)位元流之方法,該方法包括:使用一或多個處理器接收一輸入音訊信號;使用該一或多個處理器將該輸入音訊信號降混成一或多個降混聲道及與該 輸入音訊信號之一或多個聲道相關聯之空間後設資料;使用該一或多個處理器自一位元速率分布控制表讀取該等降混聲道之一組一或多個位元速率及該空間後設資料之一組量化位準;使用該一或多個處理器判定該等降混聲道之該一或多個位元速率之一組合;使用該一或多個處理器利用一位元速率分布程序自該組後設資料量化位準判定一後設資料量化位準;使用該一或多個處理器利用該後設資料量化位準量化且編碼該空間後設資料;使用該一或多個處理器及一或多個位元速率之該組合產生該一或多個降混聲道之一降混位元流;使用該一或多個處理器將該降混位元流、該經量化且經編碼空間後設資料及該組量化位準組合成該IVAS位元流;及串流傳輸或儲存該IVAS位元流用於在一具備IVAS功能之器件上播放。
在一實施例中,該輸入音訊信號係一四聲道一階立體混響(Ambisonics)(FoA)音訊信號、三聲道平面FoA信號或一雙聲道立體聲音訊信號。
在一實施例中,該一或多個位元速率係一單聲道音訊編碼器/解碼器(編解碼器)位元速率之一或多個聲道之位元速率。
在一實施例中,該單聲道音訊編解碼器係一增強語音服務(EVS)編解碼器且該降混位元流係一EVS位元流。
在一實施例中,使用該一或多個處理器利用一位元速率分布控制表獲得該等降混聲道之一或多個位元速率及該空間後設資料,其進一步包括:使用一表索引識別該位元速率分布控制表中之一列,其包含該輸入音訊信號之一格式、該輸入音訊信號之一頻寬、一經容許空間編碼工具、一轉變模式及一單聲道降混反向相容模式;及自該位元速率分布控制表之該經識別列提取一目標位元速率、一位元速率比率、一最小位元速率 及位元速率偏差步長,其中該位元速率比率指示一總位元速率在該等降混音訊信號聲道之間分布之一比率,該最小位元速率係低於其不容許實行該總位元速率之一值且該等位元速率偏差步長係在該等降混信號之一第一優先級高於或等於或低於該空間後設資料之一第二優先級時之目標位元速率降低步長;及基於該目標位元速率、該位元速率比率、該最小位元速率及該等位元速率偏差步長判定該等降混聲道之該一或多個位元速率及該空間後設資料。
在一實施例中,在一量化迴路中執行使用一組量化位準量化來量化該輸入音訊信號之該一或多個聲道之該空間後設資料,該量化迴路基於一目標後設資料位元速率與一實際後設資料位元速率之間之一差應用愈來愈粗糙之量化策略。
在一實施例中,根據一單聲道編解碼器優先級及一空間後設資料優先級基於自該輸入音訊信號提取之性質及聲道頻帶協方差值判定該量化。
在一實施例中,該輸入音訊信號係一立體聲信號且該等降混信號包含一中間信號、來自該立體聲信號之殘差及該空間後設資料之一表示。
在一實施例中,該空間後設資料包含用於一空間重建器(SPAR)格式之預測係數(PR)、交叉預測係數(C)及解相關係數(P)及用於一複合進階耦合(CACPL)格式之預測係數(P)及解相關係數(PR)。
在一實施例中,一種編碼一浸入式語音及音訊服務(IVAS)位元流之方法,該方法包括:使用一或多個處理器接收一輸入音訊信號;使用該一或多個處理器提取該輸入音訊信號之性質;使用該一或多個處理 器運算該輸入音訊信號之聲道之空間後設資料;使用該一或多個處理器自一位元速率分布控制表讀取該等降混聲道之一組一或多個位元速率及該空間後設資料之一組量化位準;使用該一或多個處理器判定該等降混聲道之該一或多個位元速率之一組合;使用該一或多個處理器利用一位元速率分布程序自該組後設資料量化位準判定一後設資料量化位準;使用該一或多個處理器利用該後設資料量化位準量化且編碼該空間後設資料;使用該一或多個處理器及一或多個位元速率之該組合利用該一或多個位元速率產生該一或多個降混聲道之一降混位元流;使用該一或多個處理器將該降混位元流、該經量化且經編碼空間後設資料及該組量化位準組合成該IVAS位元流;及串流傳輸或儲存該IVAS位元流用於在一具備IVAS功能之器件上播放。
在一實施例中,該輸入音訊信號之該等性質包含頻寬、話音/音樂分類資料及語音活動偵測(VAD)資料之一或多者。
在一實施例中,基於該空間後設資料中之一殘差位準指示符選擇待編碼成該IVAS位元流之降混聲道之數目。
在一實施例中,一種編碼一浸入式語音及音訊服務(IVAS)位元流之方法進一步包括:使用一或多個處理器接收一一階立體混響(FoA)輸入音訊信號;使用該一或多個處理器及一IVAS位元速率提取該FoA輸入音訊信號之性質,其中該等性質之一者係該FoA輸入音訊信號之一頻寬;使用該一或多個處理器利用該等FoA信號性質產生該FoA輸入音訊信號之空間後設資料;使用該一或多個處理器基於該空間後設資料中之一殘差位準指示符及解相關係數選取數個殘差聲道以發送;使用該一或多個處理器基於一IVAS位元速率、頻寬及數個降混聲道獲得一位元速率分 布控制表索引;使用該一或多個處理器自藉由該位元速率分布控制表索引指向之該位元速率分布控制表之一列讀取一空間重建器(SPAR)組態;使用該一或多個處理器自該IVAS位元速率、該等目標EVS位元速率之一總和及該IVAS標頭之一長度判定一目標後設資料位元速率;使用該一或多個處理器自該IVAS位元速率、最小EVS位元速率之一總和及該IVAS標頭之該長度判定一最大後設資料位元速率;使用該一或多個處理器及一量化迴路根據一第一量化策略以一非時間差方式量化該空間後設資料;使用該一或多個處理器熵編碼該經量化空間後設資料;使用該一或多個處理器運算一第一實際後設資料位元速率;使用該一或多個處理器判定該第一實際後設資料位元速率是否小於或等於一目標後設資料位元速率;及根據該第一實際後設資料位元速率小於或等於該目標後設資料位元速率,離開該量化迴路。
在一實施例中,該方法進一步包括:使用該一或多個處理器藉由將等於該後設資料目標位元速率與該第一實際後設資料位元速率之間之一差之一第一量之位元添加至該總EVS目標位元速率而判定一第一總實際EVS位元速率;使用該一或多個處理器利用該第一總實際EVS位元速率產生一EVS位元流;使用該一或多個處理器產生包含該EVS位元流、該位元速率分布控制表索引及該經量化且經熵編碼空間後設資料之一IVAS位元流;根據該第一實際後設資料位元速率大於該目標後設資料位元速率:使用該一或多個處理器根據該第一量化策略以一時間差方式量化該空間後設資料;使用該一或多個處理器熵編碼該經量化空間後設資料;使用該一或多個處理器運算一第二實際後設資料位元速率;使用該一或多個處理器判定該第二實際後設資料位元速率是否小於或等於該目標後設資料位 元速率;及根據該第二實際後設資料位元速率小於或等於該目標後設資料位元速率,離開該量化迴路。
在一實施例中,該方法進一步包括:使用該一或多個處理器藉由將等於該後設資料目標位元速率與該第二實際後設資料位元速率之間之一差之一第二量之位元添加至該總EVS目標位元速率而判定一第二總實際EVS位元速率;使用該一或多個處理器利用該第二總實際EVS位元速率產生一EVS位元流;使用該一或多個處理器產生包含該EVS位元流、該位元速率分布控制表索引及該經量化且經熵編碼空間後設資料之該IVAS位元流;根據該第二實際後設資料位元速率大於該目標後設資料位元速率:使用該一或多個處理器根據該第一量化策略以一非時間差方式量化該空間後設資料;使用該一或多個處理器及base2編碼器編碼該經量化空間後設資料;使用該一或多個處理器運算一第三實際後設資料位元速率;及根據該第三實際後設資料位元速率小於或等於該目標後設資料位元速率,離開該量化迴路。
在一實施例中,該方法進一步包括:使用該一或多個處理器藉由將等於該後設資料目標位元速率與該第三實際後設資料位元速率之間之一差之一第三量之位元添加至該總EVS目標位元速率而判定一第三總實際EVS位元速率;使用該一或多個處理器利用該第三總實際EVS位元速率產生一EVS位元流;使用該一或多個處理器產生包含該EVS位元流、該位元速率分布控制表索引及該經量化且經熵編碼空間後設資料之該IVAS位元流;根據該第三實際後設資料位元速率大於該目標後設資料位元速率:使用該一或多個處理器將一第四實際後設資料位元速率設定為該等第一、第二及第三實際後設資料位元速率之一最小值;使用該一或多個處理 器判定該第四實際後設資料位元速率是否小於或等於最大後設資料位元速率;根據該第四實際後設資料位元速率小於或等於該最大後設資料位元速率:使用該一或多個處理器判定該第四實際後設資料位元速率是否小於或等於該目標後設資料位元速率;及根據該第四實際後設資料位元速率小於或等於該目標後設資料位元速率,離開該量化迴路。
在一實施例中,該方法進一步包括:使用該一或多個處理器藉由將等於該後設資料目標位元速率與該第四實際後設資料位元速率之間之一差之一第四量之位元添加至該總目標EVS位元速率而判定一第四總實際EVS位元速率;使用該一或多個處理器利用該第四總實際EVS位元速率產生一EVS位元流;使用該一或多個處理器產生包含該EVS位元流、該位元速率分布控制表索引及該經量化且經熵編碼空間後設資料之該IVAS位元流;及根據該第四實際後設資料位元速率大於該目標後設資料位元速率且小於或等於該最大後設資料位元速率,離開該量化迴路。
在一實施例中,該方法進一步包括:使用該一或多個處理器藉由自該總目標EVS位元速率減去等於該第四實際後設資料位元速率與該目標後設資料位元速率之間之一差之一定量之位元而判定一第五總實際EVS位元速率;使用該一或多個處理器利用該第五實際EVS位元速率產生一EVS位元流;使用該一或多個處理器產生包含該EVS位元流、該位元速率分布控制表索引及該經量化且經熵編碼空間後設資料之該IVAS位元流;根據該第四實際後設資料位元速率大於該最大後設資料位元速率:將該第一量化策略改變為一第二量化策略且使用該第二量化策略再次進入該量化迴路,其中該第二量化策略比該第一量化策略更粗糙。在一實施例中,可使用確保提供小於最大MD位元速率之一實際MD位元速率之一第 三量化策略。
在一實施例中,該SPAR組態由一降混字串、主動W旗標、複合空間後設資料旗標、空間後設資料量化策略、一增強語音服務(EVS)單聲道編碼器/解碼器(編解碼器)之一或多個例項之最小、最大及目標位元速率及一時域解相關器音量降低旗標定義。
在一實施例中,EVS位元之實際總數目等於IVAS位元之一數目減去標頭位元之一數目減去該實際後設資料位元速率,且其中若總實際EVS位元之數目小於EVS目標位元之總數,則按以下順序自該等EVS聲道獲取位元:Z、X、Y及W,且其中可自任何聲道獲取之位元之一最大數目係該聲道之EVS目標位元之數目減去該聲道之EVS位元之最小數目,且其中若實際EVS位元之數目大於EVS目標位元之數目,則按以下順序將全部額外位元指派至該等降混聲道:W、Y、X及Z,且可添加至任何聲道之額外位元之最大數目係EVS位元之最大數目減去EVS目標位元之該數目。
在一實施例中,一種解碼一浸入式語音及音訊服務(IVAS)位元流之方法包括:使用一或多個處理器接收一IVAS位元流;使用一或多個處理器自該IVAS位元流之一位元長度獲得一IVAS位元速率;使用該一或多個處理器自該IVAS位元流獲得一位元速率分布控制表索引;使用該一或多個處理器自該IVAS位元流之一標頭剖析一後設資料量化策略;使用該一或多個處理器基於該後設資料量化策略剖析且取消量化該等經量化空間後設資料位元;使用該一或多個處理器將增強語音服務(EVS)位元之一實際數目設定為等於該IVAS位元流之一剩餘位元長度;使用該一或多個處理器及該位元速率分布控制表索引讀取含有一EVS目標及EVS最小位元速率及一或多個EVS例項之一最大EVS位元速率之該位元速率分布控 制表之表項目;使用該一或多個處理器獲得各降混聲道之一實際EVS位元速率;及使用該一或多個處理器利用該聲道之該實際EVS位元速率解碼各EVS聲道;及使用該一或多個處理器將該等EVS聲道升混至一階立體混響(FoA)聲道。
在一實施例中,一種系統包括:一或多個處理器;及一非暫時性電腦可讀媒體,其儲存在藉由該一或多個處理器執行時,引起該一或多個處理器執行上述方法之任一者之操作之指令。
在一實施例中,一種非暫時性電腦可讀媒體儲存在藉由一或多個處理器執行時,引起該一或多個處理器執行上述方法之任一者之操作之指令。
本文中揭示之其他實施方案係關於一種系統、裝置及電腦可讀媒體。在下文之隨附圖式及描述中闡述所揭示實施方案之細節。自描述、圖式及發明申請專利範圍明白其他特徵、物件及優點。
本文中揭示之特定實施方案提供一或多個以下優點。一IVAS編解碼器位元速率分布於一單聲道編解碼器與空間後設資料(MD)之間及單聲道編解碼器之多個例項之間。針對一給定音訊訊框,該IVAS編解碼器判定一空間音訊編碼模式(參數或殘差編碼)。最佳化IVAS位元流以減少空間MD,減少單聲道編解碼器附加項且將位元損耗最小化至零。
100:浸入式語音及音訊服務(IVAS)編解碼器/使用情況
102:呼叫伺服器
104:公用切換電話網路(PSTN)/其他公用陸地行動網路器件(PLMN)
106:舊型器件
108:使用者設備(UE)
110:使用者設備(UE)
114:使用者設備(UE)
116:視訊會議室系統
118:視訊會議室系統
120:家庭劇院系統
122:虛擬實境(VR)裝備
124:浸入式內容攝取
200:系統
201:音訊資料
202:空間分析及降混單元
203:量化及熵編碼單元
204:量化及熵解碼單元
206:增強語音服務(EVS)編碼單元
207:模式/位元速率控制
208:增強語音服務(EVS)解碼器
209:空間合成/呈現單元
210:音訊系統
300:一階立體混響(FoA)編解碼器
301:空間重建(SPAR)一階立體混響(FoA)編碼器
302:被動/主動預測器單元
303:重混單元
304:提取/降混選擇單元
305:增強語音服務(EVS)編碼器
306:空間重建(SPAR)一階立體混響(FoA)解碼器
307:增強語音服務(EVS)解碼器
308:C區塊
309A:解相關器區塊
309B:解相關器區塊
310A:P1區塊
310B:P2區塊
311:逆混合器
312:逆預測器
400:浸入式語音及音訊服務(IVAS)信號鏈
401:降混單元
402:位元速率(BR)分布單元
403:增強語音服務(EVS)單元
404:浸入式語音及音訊服務(IVAS)位元流包裝器
405:浸入式語音及音訊服務(IVAS)信號鏈
406:預處理器
407:空間後設資料(MD)單元
408:位元速率(BR)分布單元
409:降混單元
410:增強語音服務(EVS)單元
411:浸入式語音及音訊服務(IVAS)位元流包裝器
500:位元速率分布程序
501:步驟
502:步驟
503:步驟
504:步驟
505:步驟
506:步驟
507:步驟
508:步驟
509:固定長度共同IVAS標頭(CH)
510:可變程度共同工具標頭(CTH)
511:增強語音服務(EVS)有效負載
512:空間後設資料(MD)有效負載
513:空間後設資料(MD)有效負載
514:增強語音服務(EVS)有效負載
515:位元速率分布程序
516:一階立體混響(FoA)輸入
517:預處理
518:空間後設資料(MD)
520:步驟
521:步驟
522:步驟
523:步驟
524:步驟
525:步驟
526:步驟
527:步驟
528:步驟
529:步驟
530:步驟
531:步驟
532:步驟
534:步驟
600:浸入式語音及音訊服務(IVAS)編碼程序
601:步驟
602:步驟
603:步驟
604:步驟
605:步驟
606:步驟
607:步驟
608:步驟
609:步驟
700:浸入式語音及音訊服務(IVAS)編碼程序
701:步驟
702:步驟
703:步驟
704:步驟
705:步驟
706:步驟
707:步驟
708:步驟
709:步驟
710:步驟
800:系統
801:中央處理單元(CPU)
802:唯讀記憶體(ROM)
803:隨機存取記憶體(RAM)
804:匯流排
805:輸入/輸出(I/O)介面
806:輸入單元
807:輸出單元
808:儲存單元
809:通信單元
810:驅動器
811:可抽換式媒體
在圖式中,為了易於描述,展示示意性元件(諸如表示器件、單元、指令區塊及資料元件之元件)之特定配置或順序。然而,熟習此項技術者應理解,圖式中之示意性元件之特定順序或配置不意欲暗示需要處理之一特定順序或序列或程序之分離。此外,在一些實施方案中,在 一圖式中包含一示意性元件不意欲暗示在全部實施例中需要此元件或由此元件表示之特徵可不包含於其他元件中或與其他元件組合。
此外,在其中連接元件(諸如實線或虛線或箭頭)用於繪示兩個或兩個以上其他示意性元件之間或當中之一連接、關係或關聯之圖式中,缺乏任何此等連接元件不意欲暗示可不存在連接、關係或關聯。換言之,未在圖式中展示元件之間之一些連接、關係或關聯以免使本發明不清楚。另外,為了易於圖解說明,使用一單一連接元件以表示元件之間之多個連接、關係或關聯。例如,在一連接元件表示信號、資料或指令之一通信之情況中,熟習此項技術者應理解,此等元件可視需要表示一個或多個信號路徑以進行通信。
圖1繪示根據一實施例之一IVAS編解碼器之使用情況。
圖2係根據一實施例之用於編碼及解碼IVAS位元流之一系統之一方塊圖。
圖3係根據一實施例之用於編碼及解碼呈FoA格式之IVAS位元流之一空間重建器(SPAR)一階立體混響(FoA)編碼器/解碼器(「編解碼器」)之一方塊圖。
圖4A係根據一實施例之用於FoA及立體聲輸入信號之一IVAS信號鏈之一方塊圖。
圖4B係根據一實施例之用於FoA及立體聲輸入信號之一替代IVAS信號鏈之一方塊圖。
圖5A係根據一實施例之用於立體聲、平面FoA及FoA輸入信號之一位元速率分布程序之一流程圖。
圖5B及圖5C係根據一實施例之用於空間重建器(SPAR) FoA輸入信號之一位元速率分布程序之一流程圖。
圖6係根據一實施例之用於一立體聲、平面FoA及FoA輸入信號之一位元速率分布程序之一流程圖。
圖7係根據一實施例之一SPAR FoA輸入信號之一位元速率分布程序之一流程圖。
圖8係根據一實施例之一例示性器件架構之一方塊圖。
在各種圖式中使用之相同元件符號指示相同元件。
在以下詳細描述中,闡述許多具體細節以提供各種所述實施例之一透徹解釋。一般技術者將明白,可在無此等具體細節之情況下實踐各種所述實施方案。在其他例項中,未詳細描述熟知方法、程序、組件及電路以免不必要地使實施例之態樣不清楚。下文描述若干特徵,其等可各彼此獨立地使用或與其他特徵之任何組合一起使用。
命名法
如本文中使用,術語「包含」及其變體應被視為意謂「包含,但不限於」之開放式術語。術語「或」應被視為「及/或」,除非背景內容清楚地另外指示。術語「基於」應被視為「至少部分基於」。術語「一個例示性實施方案」及「一例示性實施方案」應被視為「至少一個例示性實施方案」。術語「另一實施方案」應被視為「至少一個其他實施方案」。術語「經判定」、「判定」或「在判定」應被視為獲得、接收、運算、計算、估計、預測或導出。另外,在以下描述及發明申請專利範圍中,除非另外定義,否則本文中使用之全部技術及科學術語具有與本發明所屬之技術之一般技術者通常理解之相同意義。
IVAS使用情況實例
圖1繪示根據一或多個實施方案之一IVAS編解碼器100之使用情況100。在一些實施方案中,各種器件透過經組態以自(例如)由PSTN/OTHER PLMN 104繪示之一公用切換電話網路(PSTN)或一公用陸地行動網路器件(PLMN)接收音訊信號之呼叫伺服器102通信。使用情況100支援僅以單聲道呈現且擷取音訊之舊型器件106,包含(但不限於):支援增強語音服務(EVS)、多速率寬頻(AMR-WB)及適應性多速率窄頻(AMR-NB)之器件。使用情況100亦支援擷取且呈現立體聲音訊信號之使用者設備(UE)108、114或擷取單聲道信號且將其等雙耳聲地呈現為多聲道信號之UE 110。使用情況100亦支援分別由視訊會議室系統116、118擷取且呈現之浸入式及立體聲信號。使用情況100亦支援用於家庭劇院系統120之立體聲音訊信號之立體聲擷取及浸入式呈現,及用於虛擬實境(VR)裝備122及浸入式內容攝取124之音訊信號之單聲道擷取及浸入式呈現之電腦112。
例示性IVAS編碼/解碼系統
圖2係根據一或多個實施方案之用於編碼及解碼IVAS位元流之一系統200之一方塊圖。為了編碼,一IVAS編碼器包含接收音訊資料201(包含(但不限於):單聲道信號、立體聲信號、雙耳聲信號、空間音訊信號(例如,多聲道空間音訊物件)、FoA、高階立體混響(HoA)及任何其他音訊資料)之空間分析及降混單元202。在一些實施方案中,空間分析及降混單元202實施用於分析/降混立體聲/FoA音訊信號之複合進階耦合(CACPL)及/或用於分析/降混FoA音訊信號之SPAR。在其他實施方案中,空間分析及降混單元202實施其他格式。
空間分析及降混單元202之輸出包含空間後設資料及音訊之1至N個降混聲道,其中N係輸入聲道之數目。空間後設資料經輸入至量化且熵編碼空間資料之量化及熵編碼單元203。在一些實施方案中,量化可包含若干位準之愈來愈粗糙之量化,諸如(例如)精細、中度、粗糙及額外粗糙量化策略且熵編碼可包含霍夫曼(Huffman)或算術編碼。增強語音服務(EVS)編碼單元206將音訊之1至N個聲道編碼成一或多個EVS位元流。
在一些實施方案中,EVS編碼單元206遵循3GPP TS 26.445且提供廣範圍之功能性,諸如窄頻之增強品質及編碼效率(EVS-NB)以及寬頻之增強品質及編碼效率(EVS-WB)話音服務、使用超寬頻之增強品質(EVS-SWB)話音、對話應用中之混合內容及音樂之增強品質、針對封包遺失及延遲抖動之穩健性及與AMR-WB編解碼器之反向相容性。在一些實施方案中,EVS編碼單元206包含基於模式/位元速率控制207在用於編碼話音信號之一話音編碼器與用於以一指定位元速率編碼音訊信號之一感知編碼器之間選擇之一預處理及模式選擇單元。在一些實施方案中,話音編碼器係用針對不同話音類別之專用基於線性預測(LP)模式擴展之代數碼激式線性預測(ACELP)之一經改良變體。在一些實施方案中,音訊編碼器係在低延遲/低位元速率下具有經增加效率之一經修改離散餘弦變換(MDCT)編碼器且經設計以執行話音與音訊編碼器之間之無縫且可靠切換。
在一些實施方案中,一IVAS解碼器包含經組態以復原空間後設資料之量化及熵解碼單元204及經組態以復原1至N個聲道音訊信號之(若干)EVS解碼器208。經復原空間後設資料及音訊信號經輸入至使用 空間後設資料合成/呈現音訊信號以在各種音訊系統210上播放之空間合成/呈現單元209。
例示性IVAS/SPAR編解碼器
圖3係根據一些實施方案之用於以SPAR格式編碼及解碼FoA之FoA編解碼器300之一方塊圖。FoA編解碼器300包含SPAR FoA編碼器301、EVS編碼器305、SPAR FoA解碼器306,及EVS解碼器307。SPAR FoA編碼器301將一FoA輸入信號轉換為用於在SPAR FoA解碼器306處重新產生輸入信號的一組降混聲道及參數。降混信號可在1至4個聲道間變動,且參數包含預測係數(PR)、交叉預測係數(C)及解相關係數(P)。應注意,SPAR係用於使用PR、C及P參數自音訊信號之一降混版本重建一音訊信號之一程序,如下文進一步詳細描述。
應注意,圖3中展示之例示性實施方案描繪一標稱2聲道降混,其中W(被動預測)或W’(主動預測)聲道與一單一預測聲道Y’一起被發送至解碼器306。在一些實施方案中,W可係一主動聲道。一主動W聲道容許X、Y、Z聲道至W聲道中之某一如下混合:W'=W+f * pry * Y+f * prz * Z+f * prx * X,其中f係一常數(例如,0.5),其容許X、Y、Z聲道之一些至W聲道中的混合,且pry、prx及prz係預測(PR)係數。在被動W中,f=0,因此不存在X、Y、Z聲道至W聲道中之混合。
在其中至少一個聲道作為一殘差發送且至少一者被參數化地發送之情況中,即,針對2及3個聲道降混,交叉預測係數(C)容許參數化聲道的一些部分自殘差聲道重建。針對兩個聲道降混(如下文進一步詳細描述),C係數容許X及Z聲道的一些自Y’重建,且剩餘聲道係由W聲道 之解相關版本重建,如下文進一步詳細描述。在3聲道降混情況中,Y’及X’用於單獨重建Z。
在一些實施方案中,SPAR FoA編碼器301包含被動/主動預測器單元302、重混單元303及提取/降混選擇單元304。被動/主動預測器以一4聲道B格式(W、Y、Z、X)接收FoA聲道且運算降混聲道(W、Y’、Z’、X’之表示)。
提取/降混選擇單元304自IVAS位元流之一後設資料有效負載區段提取SPAR FoA後設資料,如下文更詳細描述。被動/主動預測器單元302及重混單元303使用SPAR FoA後設資料以產生經重混FoA聲道(W或W’及A’),該等經重混FoA聲道被輸入至EVS編碼器305中以編碼成一EVS位元流,該EVS位元流係包封於被發送至解碼器306之IVAS位元流中。應注意,在此實例中,立體混響B格式聲道係以AmbiX慣例配置。然而,亦可使用其他慣例,諸如福斯-馬爾罕(Furse-Malham)(FuMa)慣例(W、X、Y、Z)。
參考SPAR FoA解碼器306,EVS位元流由EVS解碼器307解碼,從而產生N_dmx(例如,N_dmx=2)個降混聲道。在一些實施方案中,SPAR FoA解碼器306執行由SPAR FoA編碼器301執行之操作之一反轉。例如,在圖3之實例中,使用SPAR FoA空間後設資料自2個降混聲道復原經重混FoA聲道(W’、A’、B’、C’之表示)。經重混SPAR FoA聲道經輸入至逆混合器311以復原SPAR FoA降混聲道(W’、Y’、Z’、X’之表示)。經預測SPAR FoA聲道接著經輸入至逆預測器312以復原原始未混合SPAR FoA聲道(W、Y、Z、X)。應注意,在此雙聲道實例中,使用解相關器區塊309A(dec1)及309B(dec2)以使用一時域或頻域解相關器產生W聲道之 解相關版本。與SPAR FoA後設資料組合使用降混聲道及解相關聲道以完全或參數化地重建X及Z聲道。C區塊308係指殘差聲道乘以2x1 C係數矩陣,從而產生被加總成經參數化重建聲道之兩個交叉預測信號,如圖3中展示。P1區塊310A及P2區塊310B係指解相關器輸出乘以2x2 P係數矩陣之行,從而產生被加總成經參數化重建聲道之四個輸出,如圖3中展示。
在一些實施方案中,取決於降混聲道之數目,FoA輸入之一者經完整發送至SPAR FoA解碼器306(W聲道),且其他聲道(Y、Z及X)之一者至三者作為殘差發送或完全參數化地發送至SPAR FoA解碼器306。PR係數(保持相同而無關於降混聲道N之數目)用於最小化殘差降混聲道中之可預測能量。C係數用於進一步輔助自殘差重新產生完全參數化聲道。因而,在一個及四個聲道降混情況中不需要C係數,其中不存在殘差聲道或參數化聲道供預測。P係數用於填充未由PR及C係數考量之剩餘能量。P係數之數目取決於各頻帶中之降混聲道N之數目。在一些實施方案中,如下計算SPAR PR係數(僅被動W)。
步驟1。使用方程式[1]自主W信號預測全部側信號(Y、Z、X)。
Figure 109137722-A0305-02-0019-1
其中作為一實例,使用方程式[2]計算經預測聲道Y’之預測參數。
Figure 109137722-A0305-02-0019-2
其中R AB =cov(A,B)係對應於信號A及B之輸入協方差矩陣之元素,且每一頻帶可經運算。類似地,Z’及X’殘差聲道具有對應預測參數prz及prx。PR係預測係數[pr Y ,pr Z ,pr X ] T 之向量。
步驟2。將W及經預測(Y’、Z’、X’)信號自最聲學相關重混至最不聲學相關,其中「重混」意謂基於某一方法論對信號重新排序或重新組合,
Figure 109137722-A0305-02-0020-5
重混之一個實施方案係鑑於來自左側及右側之音訊提示比前-後更聲學相關,且前-後提示比上-下提示更聲學相關之假定,將輸入信號重新排序至W、Y’、X’、Z’。
步驟3。計算4聲道預測後及重混降混之協方差,如方程式[4]及[5]中展示。
R pr =[remix]PR.R.PR H [remix], [4]
Figure 109137722-A0305-02-0020-6
其中d表示殘差聲道(即,第2至N_dmx聲道),且u表示需要完全重新產生之參數化聲道(即,第(N_dmx+1)至第4聲道)。
針對使用1至4個聲道之一WABC降混之實例,d及u表示表I中展示之以下聲道:
Figure 109137722-A0305-02-0020-7
SPAR FoA後設資料之計算之主要關注係R_dd、R_ud及 R_uu量。自R_dd、R_ud及R_uu量,編解碼器300判定是否可自發送至解碼器之殘差聲道交叉預測完全參數化聲道之任何剩餘部分。在一些實施方案中,所需額外C係數由以下項給定:
Figure 109137722-A0305-02-0021-19
因此,C參數具有用於一3聲道降混之形狀(1×2)及用於一2聲道降混之(2×1)。
步驟4。計算必須藉由解相關器309A、309B重建之參數化聲道中之剩餘能量。升混聲道Res_uu中之殘差能量係實際能量R_uu(預測後)與經重新產生交叉預測能量Reg_uu之間之差。
Reg uu =CR dd C H , [7] Res uu =R uu -Reg uu [8]
Figure 109137722-A0305-02-0021-8
在一實施例中,在正規化Resuu矩陣已使其非對角線元素設定為零之後獲取矩陣平方根。P亦係一協方差矩陣,因此係赫米特(Hermitian)對稱的,且因此僅需要將來自上三角或下三角之參數發送至解碼器306。對角線項目係實數,而非對角線元素可係複數。在一實施例中,可將P係數進一步分離成對角線及非對角線元素P_d及P_o。
例示性IVAS信號鏈(FoA或立體聲輸入)
圖4A係根據一實施例之用於FoA及立體聲輸入音訊信號之一IVAS信號鏈400之一方塊圖。在此例示性組態中,至信號鏈400之音訊輸入可係一4聲道FoA音訊信號或一2聲道立體聲音訊信號。降混單元401產生降混音訊聲道(dmx_ch)及空間MD。降混聲道經輸入至位元速率(BR)分布單元402中,該BR分布單元402經組態以使用一BR分布控制表及 IVAS位元速率量化空間MD且提供降混音訊聲道之單聲道編解碼器位元速率,如下文詳細描述。BR分布單元402之輸出經輸入至將降混音訊聲道編碼成一EVS位元流之EVS單元403中。EVS位元流以及經量化且經編碼空間MD經輸入至IVAS位元流包裝器404以形成一IVAS位元流,該IVAS位元流經傳輸至一IVAS解碼器及/或經儲存用於一或多個IVAS器件上之後續處理或播放。
針對立體聲輸入信號,降混單元401經組態以自立體聲信號及空間MD產生中間信號(M’)、殘差(Re)之一表示。空間MD包含SPAR之PR、C及P係數以及CACPL之PR及P係數,如下文更完全描述。M’信號、Re、空間MD及一BR分布控制表經輸入至BR(位元速率)分布單元402,該BR分布單元402經組態以使用M’信號之信號特性及BR分布控制表量化空間後設資料且提供降混聲道之單聲道編解碼器位元速率。M’信號、Re及單聲道編解碼器BR經輸入至EVS單元403,該EVS單元403將M’信號及Re編碼成一EVS位元流。EVS位元流以及經量化且經編碼空間MD經輸入至IVAS位元流包裝器404以形成一IVAS位元流,該IVAS位元流經傳輸至一IVAS解碼器及/或經儲存用於一或多個IVAS器件上之後續處理或播放。
針對FoA輸入信號,降混單元401經組態以產生1至4個FoA降混聲道W’、Y’、X’及Z’以及空間MD。空間MD包含SPAR之PR、C及P係數以及CACPL之PR及P係數,如下文更完全描述。1至4個FoA降混聲道(W’、Y’、X’及Z’)經輸入至BR分布單元402中,該BR分布單元402經組態以使用(若干)FoA降混聲道之信號特性及BR分布控制表量化空間MD且提供(若干)FoA降混聲道之單聲道編解碼器位元速率。(若干)FoA降混 聲道經輸入至EVS單元403,該EVS單元403將(若干)FoA降混聲道編碼成一EVS位元流。EVS位元流以及經量化且經編碼空間MD經輸入至IVAS位元流包裝器404以形成一IVAS位元流,該IVAS位元流經傳輸至一IVAS解碼器及/或經儲存用於一或多個IVAS器件上之後續處理或播放。IVAS解碼器可執行由IVAS編碼器執行之操作之反轉以重建輸入音訊信號用於在IVAS器件上播放。
圖4B係根據一實施例之用於FoA及立體聲輸入音訊信號之一替代IVAS信號鏈405之一方塊圖。在此例示性組態中,至信號鏈405之音訊輸入可係一4聲道FoA音訊信號或一2聲道立體聲音訊信號。在此實施例中,預處理器406自輸入音訊信號提取信號性質,諸如頻寬(BW)、話音/音樂分類資料、語音活動偵測(VAD)資料等。
空間MD單元407使用經提取信號性質自輸入音訊信號產生空間MD。輸入音訊信號、信號性質及空間MD經輸入至BR分布單元408中,該BR分布單元408經組態以使用下文詳細描述之一BR分布控制表及IVAS位元速率量化空間MD且提供降混音訊聲道之單聲道編解碼器位元速率。
由BR分布單元408輸出之輸入音訊信號、經量化空間MD及數個降混聲道(d_dmx)經輸入至降混單元409,該降混單元409產生(若干)降混聲道。例如,針對FoA信號,降混聲道可包含W’及N_dmx-1殘差(Re)。
由BR分布單元408輸出之EVS位元速率及(若干)降混聲道經輸入至EVS單元410,該EVS單元410將(若干)降混聲道編碼成一EVS位元流。EVS位元流以及經量化、經編碼空間MD經輸入至IVAS位元流包裝 器411以形成一IVAS位元流,該IVAS位元流經傳輸至一IVAS解碼器及/或經儲存用於一或多個IVAS器件上之後續處理或播放。IVAS解碼器可執行由IVAS編碼器執行之操作之反轉以重建輸入音訊信號用於在IVAS器件上播放。
例示性位元速率分布控制策略
在一實施例中,一IVAS位元速率分布控制策略包含兩個分量。第一分量係提供BR分布控制程序之初始條件之BR分布控制表。至BR分布控制表之索引由編解碼器組態參數判定。編解碼器組態參數可包含IVAS位元速率、輸入格式(諸如立體聲、FoA、平面FoA或任何其他格式)、音訊頻寬(BW)、空間編碼模式(或數個殘差聲道Nre)、單聲道編解碼器之優先級及空間MD。針對立體聲編碼,Nre=0對應於全參數(FP)模式且Nre=1對應於中殘差(MR)模式。在一實施例中,BR分布控制表索引指向各降混聲道之目標、最小及最大單聲道編解碼器位元速率及多個量化策略(例如,精細、中等粗糙、粗糙)以編碼空間MD。在另一實施例中,BR分布控制表索引指向全部單聲道編解碼器例項之總目標及最小位元速率、可用位元速率需要在全部降混聲道之間劃分之一比率及多個量化策略以編碼空間MD。IVAS位元速率分布控制策略之第二分量係使用BR分布控制表輸出及輸入音訊信號性質以判定空間後設資料量化位準及位元速率及各降混聲道之一位元速率之一程序,如參考圖5A及圖5B描述。
位元速率分布程序-概述
本文中揭示之位元速率分布程序之主要處理分量包含:
˙音訊頻寬(BW)偵測(例如,窄頻(NB)、寬頻(WB)、超寬頻(SWB)、全頻帶(FB))。在此步驟中,偵測中間或W信號之BW,且相應地量化後設 資料。EVS接著將IVAS BW視為一上限且相應地編碼降混聲道
˙輸入音訊信號性質提取(例如,話音或音樂)
˙空間編碼模式(例如,全參數(FP)、中殘差(MR))或數個殘差聲道選擇N_re,其中針對立體聲編碼,當N_re=0時,選擇FP模式,且當N_re=1時,選擇MR模式
˙單聲道編解碼器及空間MD優先級決策目標位元速率、各降混聲道之最小及最大位元速率或總單聲道編解碼器位元速率在降混聲道之間劃分之比率
音訊BW偵測
此分量偵測中間或W信號之BW。在實施例中,IVAS編解碼器使用在EVS TS 26.445中描述之EVS BW偵測器。
輸入信號性質提取
此分量將輸入音訊信號之各訊框分類為話音或音樂。在一實施例中,IVAS編解碼器使用EVS話音/音樂分類器,如EVS TS 26.445中描述。
單聲道編解碼器對空間MD優先級決策
此分量基於降混信號性質決定單聲道編解碼器對空間MD之優先級。降混信號性質之實例包含如由話音/音樂分類器資料判定之話音或音樂,及立體聲之中間-側(M-S)頻帶協方差估計,及FoA之W-Y、W-X、W-Z頻帶協方差估計。若輸入音訊信號係音樂,則話音/音樂分類器資料可用於將一更高優先級給予單聲道編解碼器,且當輸入音訊信號經向左或向右硬平移時,協方差估計可用於將更多優先級給予空間MD。
在一實施例中,針對輸入音訊信號之各訊框計算優先級決 策。針對一給定IVAS位元速率,中間或W信號BW及輸入組態、位元速率分布以存在於BR分布控制表及後設資料之最精細量化策略中之降混聲道之一目標或所要位元速率開始(例如,單聲道編解碼器位元速率係基於主管或客觀評估決定)。若初始條件不符合給定IVAS位元速率預算,則空間MD之單聲道編解碼器位元速率或量化位準或兩者在一量化迴路中基於其等各自優先級經反覆地降低,直至其等兩者符合IVAS位元速率預算。
降混聲道之間之位元速率分布
全參數對中殘差
在FP模式中,僅M’或W’聲道由一單聲道編解碼器編碼且額外參數在空間MD中經編碼,此指示待藉由解碼器添加之殘差聲道之位準或解相關之位準。針對其中FP及MR兩者可行之位元速率,IVAS BR分布程序在一逐訊框基礎上基於空間MD動態地選擇待藉由單聲道編解碼器編碼且傳輸/串流傳輸至解碼器之數個殘差聲道。若任何殘差聲道之位準高於一臨限值,則該殘差聲道由單聲道編解碼器編碼;否則,程序在FP模式中運行。當待藉由單聲道編解碼器編碼之殘差聲道之數目改變時,執行轉變訊框處置以重設編解碼器狀態緩衝器。
MR降混位元速率分布
已使用各種輸入信號及中間聲道與殘差聲道之間之位元速率分布完成收聽評估。基於集中收聽測試,最有效中間對殘差位元速率比率係3:2。然而,可基於應用之要求使用其他比率。在一實施例中,位元速率分布使用一固定比率,在一調諧階段中進一步調諧該固定比率。在為降混聲道選取量化策略及BR之反覆程序期間,按照給定比率修改各降混聲道之BR。
在一實施例中,代替維持降混聲道位元速率之間之一固定比率,在BR分布控制表中單獨列舉各降混聲道之目標位元速率以及最小及最大位元速率。基於仔細主觀及客觀評估選取此等位元速率。在為降混聲道選取量化策略及BR之反覆程序期間,基於全部降混聲道之優先級將位元添加至降混聲道或自降混聲道獲取位元。降混聲道之優先級可係固定的或在逐訊框基礎上動態。在一實施例中,降混聲道之優先級係固定的。
位元速率分布程序-程序流程
圖5A係根據一實施例之用於立體聲及FoA輸入信號之一位元速率分布程序500之一流程圖。至程序500之輸入係IVAS位元速率、常數(例如,位元速率分布控制表、IVAS位元速率)、降混聲道、空間MD、輸入格式(例如,立體聲、FoA、平面FoA)及強制命令行參數(例如,最大頻寬、編碼模式、單聲道降混EVS反向相容模式)。程序500之輸出係各降混聲道之EVS位元速率、後設資料量化位準及經編碼後設資料位元。將以下步驟執行為程序500之部分。
降混音訊特徵提取
在步驟501中,自輸入音訊信號提取以下信號性質:頻寬(例如,窄頻、寬頻、超寬頻、全頻帶)及話音/音樂分類資料、語音活動偵測(VAD)資料。頻寬(BW)係輸入音訊信號之實際頻寬之最小值及由一使用者指定之一命令行最大頻寬。在一實施例中,降混音訊信號可呈脈衝碼調變(PCM)格式。
判定表索引
在步驟502中,程序500使用IVAS位元速率自一IVAS位元速率分布控制表提取IVAS位元速率分布控制表索引。在步驟503中,程序 500基於在步驟501中提取之信號參數(即,BW及話音/音樂分類)、輸入音訊信號格式、在步驟502中提取之IVAS位元速率分布控制表索引及一EVS單聲道降混反向相容性模式判定輸入格式表索引。在步驟504中,程序500基於位元速率分布控制表索引、一轉變音訊編碼模式及空間MD選擇空間編碼模式(即,FP或MR)或殘差聲道之數目(即,N_re=0至3)。在步驟505中,程序500基於上文描述之六個參數判定最終提取表索引。在一實施例中,步驟504中之空間音訊編碼模式之選擇係基於空間MD中之一殘差聲道位準指示符。空間音訊編碼模式指示一MR編碼模式(其中中間或W聲道(M’或W’)之表示伴隨著降混音訊信號中之一或多個殘差聲道)或一FP編碼模式(其中僅中間或W聲道(M’或W’)之表示存在於經降混音訊信號中)。在一實施例中,若一先前訊框中之空間音訊編碼模式包含殘差聲道編碼而當前訊框僅需要M’或W’聲道編碼,則將轉變音訊編碼模式設定為1。否則,將轉變音訊編碼模式設定為0。若待編碼之殘差聲道之數目在當前訊框與先前訊框之間不同,則將轉變音訊編碼模式設定為1。
運算單聲道編解碼器及空間MD優先級
在步驟506中,程序500基於在步驟1中提取之輸入音訊信號性質以及中間-側或W-Y、W-X、W-Z聲道頻帶之協方差估計判定一單聲道編解碼器/空間MD優先級。在一實施例中,存在四個可能優先級結果:單聲道編解碼器高優先級及空間MD低優先級、單聲道編解碼器低優先級及空間MD高優先級、單聲道編解碼器高優先級及空間MD高優先級以及單聲道編解碼器低優先級及空間MD低優先級。
自表提取單聲道編解碼器位元速率相關之變數
在步驟507中,自藉由步驟505中計算之最終表索引指向之 表項目讀取以下參數:單聲道編解碼器(EVS)目標位元速率、位元速率比率、EVS最小位元速率及EVS位元速率偏差步長。取決於在步驟506中判定之單聲道編解碼器/空間MD優先級以及具有各種量化位準之空間MD位元速率,實際單聲道編解碼器(EVS)位元速率可高於或低於在BR分布控制表中指定之單聲道編解碼器(EVS)目標位元速率。位元速率比率指示總EVS位元速率必須在輸入音訊信號聲道之間分布之比率。EVS最小位元速率係低於其不容許實行總EVS位元速率之一值。當EVS優先級高於或等於或低於空間MD之優先級時,EVS位元速率偏差步長係EVS目標位元速率降低步長。
基於輸入參數來計算最佳EVS位元速率及後設資料量化位準
在步驟508中,根據以下子步驟,基於在步驟501至503中獲得之輸入參數來計算一最佳EVS位元速率及後設資料量化策略。降混聲道之一高位元速率及粗糙量化策略可導致空間問題,而一精細量化策略及低降混音訊聲道位元速率可導致單聲道編解碼器編碼假影。如本文中使用的「最佳」係在利用IVAS位元速率預算中之全部可用位元或至少顯著降低位元損耗的同時,IVAS位元速率在EVS位元速率與後設資料量化位準之間的最平衡分布。
步驟508.1:使用最精細量化位準來量化後設資料且檢查條件508.a(下文展示)。若條件508.a為真,則進行步驟508.b(下文展示)。否則,基於步驟503中計算之優先級,繼續至步驟508.2或508.3或508.4。
步驟508.2:若EVS優先級高且空間MD優先級低,則降低空間MD之量化位準且檢查條件508.a。若條件508.a為真,則進行步驟 508.b。否則,基於步驟507(EVS位元速率偏差步長)來降低EVS目標位元速率且檢查條件508a。若條件508a為真,則進行步驟508.b,否則重複步驟508.2。
步驟508.3:若EVS優先級低且空間MD優先級高,則基於步驟507(EVS位元速率偏差步長)來降低EVS目標位元速率且檢查條件508.a。若條件508.a為真,則進行步驟508.b。否則,降低空間MD之量化位準且檢查條件508.a。若條件508.a為真,則進行步驟508.b。否則,重複步驟508.3。
步驟508.4:若EVS優先級等於空間MD優先級,則基於步驟507(EVS位元速率偏差步長)來降低EVS目標位元速率且檢查條件508.a。若條件508.a為真,則進行步驟508.b。否則,降低空間後設資料之量化位準且檢查條件508.a。若條件508.a為真,則進行步驟508.b,否則重複步驟5.4。
上文提及之條件508.a檢查後設資料位元速率、EVS目標位元速率及附加項位元之總和是否小於或等於IVAS位元速率。
上文提及之步驟508.b運算EVS位元速率等於IVAS位元速率減去後設資料位元速率減去附加項位元。接著,按照在步驟507中提及之位元速率比率,在降混音訊聲道當中分布EVS位元速率。
若最小EVS目標位元速率及最粗糙量化位準不符合IVAS位元速率預算,則使用一更低頻寬來執行位元速率分布程序500。
在一實施例中,表索引及後設資料量化位準資訊包含於發送至一IVAS解碼器之一IVAS位元流之附加項位元中。IVAS解碼器自IVAS位元流中之附加項位元讀取表索引及後設資料量化位準且解碼空間 MD。此僅給IVAS解碼器留下IVAS位元流中之EVS位元以供處理。按照由表索引指示之比率在輸入音訊信號聲道當中劃分EVS位元(步驟508.b)。接著,使用對應位元調用各EVS解碼器例項,此導致降混音訊聲道之一重建。
例示性IVAS位元速率分布控制表
下文係一例示性IVAS位元速率分布控制表。表中展示之以下參數具有下文指示之值:
輸入格式:立體聲-1、平面FoA-2、FoA-3
BW:NB-0、WB-1、SWB-2、FB-3
經容許空間編碼工具:FP-1、MR-2
轉變模式:1→MR至FP轉變、0→其他
單聲道降混反向相容模式:1→若中間聲道與3GPP EVS相容,0→其他。
Figure 109137722-A0305-02-0031-10
Figure 109137722-A0305-02-0032-11
Figure 109137722-A0305-02-0033-12
Figure 109137722-A0305-02-0034-13
Figure 109137722-A0305-02-0035-15
Figure 109137722-A0305-02-0036-16
在圖5A中亦展示IVAS位元流。在一實施例中,IVAS位元流包含一固定長度共同IVAS標頭(CH)509及一可變長度共同工具標頭(CTH)510。在一實施例中,基於對應於IVAS位元速率分布控制表中之給定IVAS位元速率之項目之數目計算CTH區段之位元長度。將相對表索引(自表中之該IVAS位元速率之第一索引偏移)儲存於CTH區段中。若在單聲道降混反向相容模式中操作,則CTH 510之後接著EVS有效負載511,EVS有效負載511之後接著空間MD有效負載513。若在IVAS模式中操作,則CTH 510之後接著空間MD有效負載512,空間MD有效負載512之後接著EVS有效負載514。在其他實施例中,順序可係不同的。
例示性程序
位元速率分布之一例示性程序可藉由一IVAS編解碼器或 編碼/解碼系統(包含執行儲存於一非暫時性電腦可讀儲存媒體上之指令之一或多個處理器)執行。
在一實施例中,編碼音訊之一系統接收一音訊輸入及後設資料。系統基於音訊輸入、後設資料及在編碼音訊輸入時使用之一IVAS編解碼器之參數判定一位元速率分布控制表之一或多個索引、包含一IVAS位元速率、一輸入格式及一單聲道反向相容性模式之參數、包含一空間音訊編碼模式及音訊輸入之一頻寬之一或多個索引。
系統基於IVAS位元速率、輸入格式、空間音訊編碼模式及一或多個索引執行位元速率分布控制表中之一查找表,查找表識別位元速率分布控制表中之一項目,項目包含一EVS目標位元速率、一位元速率比率、一EVS最小位元速率及EVS位元速率偏差步長之一表示。
系統將經識別項目提供至一位元速率計算程序,該位元速率計算程序經程式化以判定音訊輸入(例如,降混聲道)之位元速率、後設資料之一位元速率及後設資料之量化位準。系統將降混聲道之位元速率及後設資料之位元速率或後設資料之量化位準之至少一者提供至一下游IVAS器件。
在一些實施方案中,系統可自音訊輸入提取性質,性質包含音訊輸入是否係話音或音樂及音訊輸入之一頻寬之一指示符。系統基於性質判定降混聲道之位元速率與後設資料之位元速率之間之一優先級。系統將優先級提供至位元速率計算程序。
在一些實施方案中,系統自空間MD提取包含一殘差(側聲道預測誤差)位準之一或多個參數。系統基於參數判定指示對於IVAS位元流中之一或多個殘差聲道之需要之空間音訊編碼模式。系統將空間音訊編 碼模式提供至位元速率計算程序。
在一些實施方案中,將位元速率分布控制表索引儲存於一IVAS位元流之一共同工具標頭(CTH)中。
用於解碼音訊之一系統經組態以接收一IVAS位元流。系統基於IVAS位元流判定IVAS位元速率及位元速率分布控制表索引。系統基於表索引執行位元速率分布控制表中之一查找表,且提取輸入格式、空間編碼模式、單聲道反向相容性模式及一或多個索引、一EVS目標位元速率及一位元速率比率。系統提取且解碼每一降混聲道之降混音訊位元及空間MD位元。系統將經提取降混信號位元及空間MD位元提供至一下游IVAS器件。下游IVAS器件可係一音訊處理器件或一儲存器件。
SPAR FoA位元速率分布程序
在一實施例中,上文針對立體聲輸入信號描述之位元速率分布程序亦可經修改且應用至使用下文展示之SPAR FoA位元速率分布控制表之SPAR FoA位元速率分布。下文提供包含於表中之術語之定義以輔助讀者,接著為一SPAR FoA位元速率分布控制表
˙後設資料目標位元(MDtar)=IVAS_bits-header_bits-evs_target_bits(EVStar)
˙後設資料最大位元(MDmax)=IVAS_bits-header_bits-evs_minimum_bits(EVSmin)
˙後設資料目標位元應始終小於「MDmax」。
Figure 109137722-A0305-02-0039-17
在下文之表中展示最大MD位元速率(實數係數)之一些例示性運算。
Figure 109137722-A0305-02-0040-18
例示性後設資料量化迴路:
在一實施例中,如下文描述般實施一後設資料量化迴路。後設資料量化迴路包含兩個臨限值(上文定義):MDtar及MDmax。
步驟1:針對輸入音訊信號之每一訊框,MD參數以一非時間差方式量化且使用一算術編碼器編碼。基於MD編碼位元運算實際後設資料位元速率(MDact)。若MDact低於MDtar,則將此步驟視為一遍次且程序離開量化迴路且將MDact位元整合至IVAS位元流中。將任何額外可用位元(MDtar-MDact)供應至單聲道編解碼器(EVS)編碼器以增加降混音訊聲道之基本資料之位元速率。更多位元速率容許更多資訊藉由單聲道編解碼器編碼且經解碼音訊輸出之損耗將相對較小。
步驟2:若步驟1失敗,則將訊框中之MD參數值之一子集量化且接著自先前訊框中之經量化MD參數值減去且使用算術編碼器(即,時間差編碼)編碼差量化參數值。基於MD編碼位元運算MDact。若MDact低於MDtar,則將此步驟視為一遍次且程序離開量化迴路且將MDacr位元 整合至IVAS位元流中。將任何額外可用位元(MDtar-MDact)供應至單聲道編解碼器(EVS)編碼器以增加降混音訊聲道之基本資料之位元速率。
步驟3:若步驟2失敗,則不使用熵計算量化MD參數之位元速率(MDact)。
步驟4:比較在步驟1至3中運算之MDact位元速率值與MDmax。若在步驟1、步驟2及步驟3中運算之MDact位元速率之最小值在MDmax內,則將此步驟視為一遍次且程序離開量化迴路且將具有最小MDact之MD位元流整合至IVAS位元流中。若MDact高於MDtar,則自單聲道編解碼器(EVS)編碼器獲取位元(MDact-MDtar)。
步驟5:若步驟4失敗,則更粗糙地量化參數且重複上文之步驟作為一第一回落策略(回落1)。
步驟6:若步驟5失敗,則使用保證符合MDmax之一量化方案量化參數作為一第二回落策略(回落2)。
在上文提及之全部反覆之後,保證後設資料位元速率將符合MDmax,且編碼器將產生實際後設資料位元或MDact。
降混聲道/EVS位元速率分布(EVSbd):
在一實施例中,EVS實際位元(EVSact)=IVAS_bits-header_bits-MDact。若「EVSact」小於「EVStar」,則按以下順序(Z、X、Y、W)自EVS聲道獲取位元。可自任何聲道獲取之最大位元係EVStar(ch)減去EVSmin(ch)。若「EVSact」大於「EVStar」,則按以下順序將全部額外位元指派至降混聲道:W、Y、X及Z。可添加至任何聲道之最大額外位元係EVSmax(ch)-EVStar(ch)。
SPAR解碼器解包裝
在一實施例中,一SPAR解碼器將一IVAS位元流如下解包裝:
1.自位元長度獲取IVAS位元速率且自IVAS位元流中之工具標頭(CTH)獲取表索引
2.剖析IVAS位元流中之標頭/後設資料位元
3.剖析且取消量化後設資料位元。
4.設定「EVSact」=剩餘位元長度
5.讀取與EVS目標、最小及最大位元速率相關之表項目且在解碼器處重複「EVSbd」步驟以獲取各聲道之實際EVS位元速率
6.解碼EVS聲道且升混至FoA聲道
SPAR FoA輸入音訊信號之BR分布程序
圖5B及圖5C係根據一實施例之用於SPAR FoA輸入信號之一位元速率分布程序515之一流程圖。程序515藉由預處理517 FoA輸入(W、Y、Z、X)516以使用IVAS位元速率提取信號性質(諸如BW、話音/音樂分類資料、VAD資料等)開始。程序515繼續產生空間MD(例如,PR、C、P係數)518且基於空間MD中之一殘差位準指示符選取數個殘差聲道以發送至IVAS解碼器(520)且基於IVAS位元速率、BW及降混聲道(N_dmx)之數目獲得一BR分布控制表索引(521)。在一些實施例中,空間MD中之P係數可用作殘差位準指示符。將BR分布控制表索引發送至一IVAS位元包裝器(見圖4A、圖4B)以包含於可經儲存及/或發送至一IVAS解碼器之IVAS位元流。
程序515繼續自藉由表索引指向之BR分布控制表中之一列讀取一SPAR組態(521)。如上文之表II中展示,SPAR組態由包含(但不限 於)以下項之一或多個特徵定義:一降混字串(重混)、主動W旗標、複合空間MD旗標、空間MD量化策略、EVS最小/目標/最大位元速率及時域解相關器音量降低旗標。
程序515繼續自IVAS位元速率、EVSmin及EVStar位元速率值判定MDmax、MDtar位元速率(522),如上文先前描述,且進入包含以下項之一量化迴路:使用一量化策略以一非時間差方式量化空間MD;使用一熵編碼器(例如,算術編碼器)編碼經量化空間MD;及運算MDact(523)。在一實施例中,量化迴路之第一反覆使用一精細量化策略。
程序515繼續檢查MDact是否小於或等於MDtar(524)。若MDact不小於或等於MDtar,則將MD位元發送至IVAS位元包裝器以包含於IVAS位元流中且按以下順序將(MDtar-MDact)位元添加至EVStar位元速率(532):產生W、Y、X、Z、N_dmx EVS位元流(聲道)且將EVS位元發送至IVAS位元包裝器以包含於IVAS位元流中,如先前描述。若MDact小於或等於MDtar,則程序515使用精細量化策略以一時間差方式量化空間MD,使用熵編碼器編碼經量化空間MD且再次運算MDact(525)。若MDact小於或等於MDtar,則將MD位元發送至IVAS位元包裝器以包含於IVAS位元流中且按以下順序將(MDtar-MDact)位元添加至EVStar位元速率(532):產生W、Y、X、Z、N_dmx EVS位元流(聲道)且將EVS位元發送至IVAS位元包裝器以包含於IVAS位元流中,如先前描述。若MDact大於MDtar,則使用精細量化策略以一非時間差方式量化空間MD且對其進行熵及base2編碼,且運算MDact之一新值(527)。應注意,可添加至任何EVS例項之最大位元等於EVSmax-EVStar。
程序515再次判定MDact是否小於或等於MDtar(528)。若 MDact小於或等於MDtar,則將MD位元發送至IVAS位元包裝器以包含於IVAS位元流中且按以下順序將(MDtar-MDact)位元添加至EVStar位元速率(532):產生W、Y、X、Z、N_dmx EVS位元流(聲道)且將EVS位元發送至IVAS位元包裝器以包含於IVAS位元流中,如先前描述。若MDact大於MDtar,則程序515將MDact設定為在(523)、(525)、(527)中運算之三個MDact位元速率之最小值且比較MDact與MDmax(529)。若MDact大於MDmax(530),則使用一粗糙量化策略重複量化迴路(步驟523至530),如上文先前描述。
若MDact小於或等於MDmax,則將MD位元發送至IVAS位元包裝器以包含於IVAS位元流中,且程序515再次判定MDact是否小於或等於MDtar(531)。若MDact小於或等於MDtar,則按以下順序將(MDtar-MDact)位元添加至EVStar位元速率(532):產生W、Y、X、Z、N_dmx EVS位元流(聲道)且將EVS位元發送至IVAS位元包裝器以包含於IVAS位元流中,如先前描述。若MDact大於MDtar,則按以下順序自EVStar位元速率減去(MDtar-MDact)位元(532):產生Z、X、Y、W、N_dmx EVS位元流(聲道)且將EVS位元發送至IVAS位元包裝器以包含於IVAS位元流中,如先前描述。應注意,可自任何EVS例項減去之最大位元等於EVStar-EVSmin。
例示性程序
圖6係根據一實施例之一IVAS編碼程序600之一流程圖。程序600可使用如參考圖8描述之器件架構實施。
程序600包含:接收一輸入音訊信號(601);將輸入音訊信號降混成一或多個降混聲道及與輸入音訊信號之一或多個聲道相關聯之空 間後設資料(602);自一位元速率分布控制表讀取降混聲道之一組一或多個位元速率及空間後設資料之一組量化位準(603);判定降混聲道之一或多個位元速率之一組合(604);使用一位元速率分布程序自該組後設資料量化位準判定一後設資料量化位準(605);使用後設資料量化位準量化且編碼該空間後設資料(606);使用一或多個位元速率之組合產生一或多個降混聲道之一降混位元流(607);將降混位元流、經量化且經編碼空間後設資料及該組量化位準組合成IVAS位元流(608);串流傳輸或儲存IVAS位元流用於在一具備IVAS功能之器件上播放(609)。
圖7係根據一實施例之一替代IVAS編碼程序700之一流程圖。程序700可使用如參考圖8描述之器件架構實施。
程序700包含:接收一輸入音訊信號(701);提取輸入音訊信號之性質(702);運算輸入音訊信號之聲道之空間後設資料(703);自一位元速率分布控制表讀取降混聲道之一組一或多個位元速率及空間後設資料之一組量化位準(704);判定降混聲道之一或多個位元速率之一組合(705);使用一位元速率分布程序自該組後設資料量化位準判定一後設資料量化位準(706);使用該後設資料量化位準量化且編碼該空間後設資料(707);使用一或多個位元速率之組合利用一或多個位元速率產生一或多個降混聲道之一降混位元流(708);將降混位元流、經量化且經編碼空間後設資料及該組量化位準組合成IVAS位元流(709);及串流傳輸或儲存IVAS位元流用於在一具備IVAS功能之器件上播放(710)。
例示性系統架構
圖8展示適合於實施本發明之例示性實施例之一例示性系統800之一方塊圖。系統800包含一或多個伺服器電腦或任何用戶端器 件,包含(但不限於)圖1中展示之任何器件,諸如呼叫伺服器102、舊型器件106、使用者設備108、114、會議室系統116、118、家庭劇院系統、VR裝備122及浸入式內容攝取124。系統800包含任何消費型器件,包含(但不限於):智慧型電話、平板電腦、穿戴型電腦、車輛電腦、遊戲機、環場系統、資訊站(kiosk)。
如展示,系統800包含能夠根據儲存於(例如)一唯讀記憶體(ROM)802中之一程式或自(例如)一儲存單元808載入至一隨機存取記憶體(RAM)803之一程式執行各種程序之一中央處理單元(CPU)801。在RAM 803中,亦視需要儲存在CPU 801執行各種程序時所需之資料。CPU 801、ROM 802及RAM 803經由一匯流排804彼此連接。一輸入/輸出(I/O)介面805亦連接至匯流排804。
以下組件連接至I/O介面805:一輸入單元806,其可包含一鍵盤、一滑鼠或類似者;一輸出單元807,其可包含一顯示器(諸如一液晶顯示器(LCD))及一或多個揚聲器;儲存單元808,其包含一硬碟或另一適合儲存器件;及一通信單元809,其包含一網路介面卡,諸如一網路卡(例如,有線或無線)。
在一些實施方案中,輸入單元806包含實現呈各種格式(例如,單聲道、立體聲、空間、浸入式及其他適合格式)之音訊信號之擷取之(取決於主機器件)在不同位置中之一或多個麥克風。
在一些實施方案中,輸出單元807包含具有各種數目個揚聲器之系統。如圖1中繪示,輸出單元807(取決於主機器件之能力)可以各種格式(例如,單聲道、立體聲、浸入式、雙耳聲及其他適合格式)呈現音訊信號。
通信單元809經組態以(例如,經由一網路)與其他器件通信。一驅動器810亦視需要連接至I/O介面805。一可抽換式媒體811(諸如一磁碟、一光碟、一磁光碟、一快閃隨身碟或另一適合可抽換式媒體)安裝於驅動器810上,使得自其讀取之一電腦程式視需要安裝於儲存單元808中。熟習此項技術者將理解,雖然將系統800描述為包含上述組件,但在真實應用中,可添加、移除及/或替換此等組件之一些且全部此等修改或更改全部落在本發明之範疇內。
根據本發明之例示性實施例,上文描述之程序可被實施為電腦軟體程式或在一電腦可讀儲存媒體上實施。例如,本發明之實施例包含一電腦程式產品,其包含體現於一機器可讀媒體上之一電腦程式,該電腦程式包含用於執行方法之程式碼。在此等實施例中,電腦程式可經由通信單元809自網路下載並安裝及/或自可抽換式媒體811安裝,如圖8中展示。
一般言之,本發明之各項實例實施例可實施為硬體或專用電路(例如,控制電路)、軟體、邏輯或其等之任何組合。例如,上文論述之單元可由控制電路(例如,與圖8之其他組件組合之一CPU)執行,因此,控制電路可在執行本發明中描述之動作。一些態樣可實施為硬體,而其他態樣可實施為可藉由一控制器、微處理器或其他運算器件(例如,控制電路)執行之韌體或軟體。雖然將本發明之例示性實施例之各種態樣繪示且描述為方塊圖、流程圖或使用某一其他圖示,但應瞭解,作為非限制性實例,本文中描述之方塊、裝置、系統、技術或方法可實施為硬體、軟體、韌體、專用電路或邏輯、通用硬體或控制器或其他運算器件或其等之某一組合。
另外,可將流程圖中展示之各種方塊視為方法步驟及/或視為源自電腦程式碼之操作之操作及/或視為經建構以實行(若干)相關聯功能之複數個耦合邏輯電路元件。例如,本發明之實施例包含一電腦程式產品,該電腦程式產品包含體現於一機器可讀媒體上之一電腦程式,電腦程式含有經組態以實行如上文描述之方法之程式碼。
在本發明之背景內容中,一機器可讀媒體可係可含有或儲存一程式用於由或結合一指令執行系統、裝置或器件使用之任何有形媒體。機器可讀媒體可係一機器可讀信號媒體或一機器可讀儲存媒體。一機器可讀媒體可係非暫時性的且可包含(但不限於)一電子、磁性、光學、電磁、紅外或半導體系統、裝置、或器件或前述之任何適合組合。機器可讀儲存媒體之更特定實例將包含:具有一或多個導線之一電連接、一攜帶型電腦磁碟、一硬碟、一隨機存取記憶體(RAM)、一唯讀記憶體(ROM)、一可擦除可程式化唯讀記憶體(EPROM或快閃記憶體)、一光纖、一攜帶型光碟唯讀記憶體(CD-ROM)、一光學儲存器件、一磁性儲存器件或前述之任何適合組合。
用於實行本發明之方法之電腦程式碼可以一或多個程式設計語言之任何組合撰寫。可將此等電腦程式碼提供至一通用電腦、專用電腦或具有控制電路之其他可程式化資料處理裝置之一處理器,使得程式碼在藉由電腦或其他可程式化資料處理裝置之處理器執行時引起在流程圖及/或方塊圖中指定之功能/操作被實施。程式碼可完全在一電腦上、部分在電腦上、作為一獨立套裝軟體、部分在電腦上且部分在一遠端電腦上或完全在遠端電腦或伺服器上執行或在一或多個遠端電腦及/或伺服器上分布。
雖然本文檔含有許多具體實施方案細節,但不應將此等細節理解為對可主張之內容之範疇之限制,而是應理解為對特定實施例所特有的特徵之描述。亦可在一單一實施例中組合實施本說明書中在各別實施例之內容背景中描述之特定特徵。相反地,亦可在多個實施例中單獨地或以任何適合子組合實施在一單一實施例之內容背景中描述之各種特徵。再者,雖然在上文將特徵描述為以特定組合作用且甚至最初如此主張,但在一些情況中,來自一所主張組合之一或多個特徵可自該組合去除且該所主張組合可係關於一子組合或一子組合之變動。圖中描繪之邏輯流程不需要所展示之特定順序或循序順序以達成所要結果。另外,可提供其他步驟,或可自所述流程消除步驟,且可將其他組件添加至所述系統或自所述系統移除其他組件。因此,其他實施方案在以下發明申請專利範圍之範疇內。
100:浸入式語音及音訊服務(IVAS)編解碼器/使用情況
102:呼叫伺服器
104:公用切換電話網路(PSTN)/其他公用陸地行動網路器件(PLMN)
106:舊型器件
108:使用者設備(UE)
110:使用者設備(UE)
114:使用者設備(UE)
116:視訊會議室系統
118:視訊會議室系統
120:家庭劇院系統
122:虛擬實境(VR)裝備
124:浸入式內容攝取

Claims (31)

  1. 一種編碼一浸入式語音及音訊服務(IVAS)位元流之方法,該方法包括:使用一或多個處理器來接收一輸入音訊信號;使用該一或多個處理器,將該輸入音訊信號降混成一或多個降混聲道及與該輸入音訊信號之一或多個聲道相關聯的空間後設資料;使用該一或多個處理器,自一位元速率分布控制表讀取該等降混聲道之一組一或多個位元速率及該空間後設資料之一組量化位準;使用該一或多個處理器來判定該等降混聲道之該一或多個位元速率之一組合;使用該一或多個處理器,利用一位元速率分布程序,自該組後設資料量化位準判定一後設資料量化位準;使用該一或多個處理器,利用該後設資料量化位準來量化且編碼該空間後設資料;使用該一或多個處理器及一或多個位元速率之該組合來產生該一或多個降混聲道之一降混位元流;使用該一或多個處理器,將該降混位元流、該經量化且經編碼空間後設資料及該組量化位準組合成該IVAS位元流;及串流傳輸或儲存該IVAS位元流,用於在一具備IVAS功能之器件上播放。
  2. 如請求項1之方法,其中該輸入音訊信號係一四聲道一階立體混響 (FoA)音訊信號、三聲道平面FoA信號,或一雙聲道立體聲音訊信號。
  3. 如請求項1或2之方法,其中該一或多個位元速率係一單聲道音訊編碼器/解碼器(編解碼器)位元速率之一或多個例項的位元速率。
  4. 如請求項1或2之方法,其中該單聲道音訊編解碼器係一增強語音服務(EVS)編解碼器,且該降混位元流係一EVS位元流。
  5. 如請求項1或2之方法,其中使用該一或多個處理器,利用一位元速率分布控制表來獲得該等降混聲道之一或多個位元速率及該空間後設資料,其進一步包括:使用一表索引來識別該位元速率分布控制表中之一列,其包含該輸入音訊信號之一格式、該輸入音訊信號之一頻寬、一經容許空間編碼工具、一轉變模式,及一單聲道降混反向相容模式;及自該位元速率分布控制表之該經識別列提取一目標位元速率、一位元速率比率、一最小位元速率及位元速率偏差步長,其中該位元速率比率指示一總位元速率在該等降混音訊信號聲道之間分布之一比率,該最小位元速率係低於其不容許實行該總位元速率之一值,且該等位元速率偏差步長係在該等降混信號之一第一優先級高於或等於或低於該空間後設資料之一第二優先級時之目標位元速率降低步長;及基於該目標位元速率、該位元速率比率、該最小位元速率及該等位元速率偏差步長來判定該等降混聲道之該一或多個位元速率及該 空間後設資料。
  6. 如請求項1或2之方法,其中在一量化迴路中執行使用一組量化位準量化來量化該輸入音訊信號之該一或多個聲道之該空間後設資料,該量化迴路基於一目標後設資料位元速率與一實際後設資料位元速率之間之一差應用愈來愈粗糙的量化策略。
  7. 如請求項1或2之方法,其中根據一單聲道編解碼器優先級及一空間後設資料優先級,基於自該輸入音訊信號提取之性質及聲道頻帶協方差值來判定該量化。
  8. 如請求項1或2之方法,其中該輸入音訊信號係一立體聲信號,且該等降混信號包含一中間信號、來自該立體聲信號之殘差及該空間後設資料之一表示。
  9. 如請求項1或2之方法,其中該空間後設資料包含用於一空間重建器(SPAR)格式之預測係數(PR)、交叉預測係數(C)及解相關係數(P),及用於複合進階耦合(CACPL)格式之預測係數(P)及解相關係數(PR)。
  10. 一種編碼一浸入式語音及音訊服務(IVAS)位元流之方法,該方法包括:使用一或多個處理器來接收一輸入音訊信號;使用該一或多個處理器來提取該輸入音訊信號之性質; 使用該一或多個處理器來運算該輸入音訊信號之聲道之空間後設資料;使用該一或多個處理器,自一位元速率分布控制表讀取該等降混聲道之一組一或多個位元速率及該空間後設資料之一組量化位準;使用該一或多個處理器來判定該等降混聲道之該一或多個位元速率之一組合;使用該一或多個處理器,利用一位元速率分布程序,自該組後設資料量化位準判定一後設資料量化位準;使用該一或多個處理器,利用該後設資料量化位準來量化且編碼該空間後設資料;使用該一或多個處理器及一或多個位元速率之該組合,利用該一或多個位元速率來產生該一或多個降混聲道之一降混位元流;使用該一或多個處理器,將該降混位元流、該經量化且經編碼空間後設資料及該組量化位準組合成該IVAS位元流;及串流傳輸或儲存該IVAS位元流,用於在一具備IVAS功能之器件上播放。
  11. 如請求項10之方法,其中該輸入音訊信號之該等性質包含頻寬、話音/音樂分類資料及語音活動偵測(VAD)資料中之一或多者。
  12. 如請求項10或11之方法,其中該輸入音訊信號係一四聲道一階立體混響(FoA)音訊信號、三聲道平面FoA,或一雙聲道立體聲音訊信號。
  13. 如請求項10或11之方法,其中該一或多個位元速率係一單聲道音訊編碼器/解碼器(編解碼器)位元速率之一或多個例項的位元速率。
  14. 如前述請求項13之方法,其中該單聲道音訊編解碼器係一增強語音服務(EVS)編解碼器,且該降混位元流係一EVS位元流。
  15. 如請求項10或11之方法,其中使用該一或多個處理器,利用一位元速率分布控制表來獲得該等降混聲道之一或多個位元速率及空間後設資料之該組量化位準,其進一步包括:使用一表索引來識別該位元速率分布控制表中之一列,其包含該輸入音訊信號之一格式、該輸入音訊信號之一頻寬、一經容許空間編碼工具、一轉變模式,及一單聲道降混反向相容模式;及自該位元速率分布控制表之該經識別列提取一目標位元速率、一位元速率比率、一最小位元速率及位元速率偏差步長,其中該位元速率比率指示一總位元速率在該等輸入音訊信號聲道之間分布之一比率,該最小位元速率係低於其不容許實行該總位元速率之一值,且該等位元速率偏差步長係在該等降混信號之一第一優先級高於或等於或低於該空間後設資料之一第二優先級時的目標位元速率降低步長;及基於該目標位元速率、該位元速率比率、該最小位元速率及該等位元速率偏差步長來判定該等降混聲道之該一或多個位元速率及該空間後設資料。
  16. 如請求項10或11之方法,其中在一量化迴路中執行使用一組量化位準量化來量化該輸入音訊信號之該一或多個聲道之該空間後設資料,該量化迴路基於一目標後設資料位元速率與一實際後設資料位元速率之間之一差,應用愈來愈粗糙的量化策略。
  17. 如請求項10或11之方法,其中根據一單聲道編解碼器優先級及一空間後設資料優先級,基於自該輸入音訊信號提取之性質及聲道頻帶協方差值來判定該量化。
  18. 如請求項10或11之方法,其中該輸入音訊信號係一立體聲信號,且該等降混信號包含一中間信號、來自該立體聲信號之殘差及該空間後設資料之一表示。
  19. 如請求項10或11之方法,其中該空間後設資料包含用於一空間重建器(SPAR)格式之預測係數(PR)、交叉預測係數(C)及解相關係數(P),及用於複合進階耦合(CACPL)格式之預測係數(P)及解相關係數(PR)。
  20. 如請求項10或11之方法,其中基於該空間後設資料中之一殘差位準指示符來選擇待編碼成該IVAS位元流之降混聲道的數目。
  21. 一種編碼一浸入式語音及音訊服務(IVAS)位元流之方法,其包括:使用一或多個處理器來接收一一階立體混響(FoA)輸入音訊信號;使用該一或多個處理器及一IVAS位元速率來提取該FoA輸入音訊 信號之性質,其中該等性質之一者係該FoA輸入音訊信號之一頻寬;使用該一或多個處理器,利用該等FoA信號性質來產生該FoA輸入音訊信號之空間後設資料;使用該一或多個處理器,基於該空間後設資料中之一殘差位準指示符及解相關係數來選取數個殘差聲道以發送;使用該一或多個處理器,基於一IVAS位元速率、頻寬及數個降混聲道來獲得一位元速率分布控制表索引;使用該一或多個處理器,自藉由該位元速率分布控制表索引指向之該位元速率分布控制表之一列讀取一空間重建器(SPAR)組態;使用該一或多個處理器,自該IVAS位元速率、該等目標EVS位元速率之一總和及該IVAS標頭之一長度來判定一目標後設資料位元速率;使用該一或多個處理器,自該IVAS位元速率、最小EVS位元速率之一總和及該IVAS標頭之該長度來判定一最大後設資料位元速率;使用該一或多個處理器及一量化迴路,根據一第一量化策略,以一非時間差方式量化該空間後設資料;使用該一或多個處理器來熵編碼該經量化空間後設資料;使用該一或多個處理器來運算一第一實際後設資料位元速率;使用該一或多個處理器來判定該第一實際後設資料位元速率是否小於或等於一目標後設資料位元速率;及根據該第一實際後設資料位元速率係小於或等於該目標後設資料位元速率,離開該量化迴路。
  22. 如請求項21之方法,進一步包括:使用該一或多個處理器,藉由將等於該後設資料目標位元速率與該第一實際後設資料位元速率之間之一差之一第一量之位元添加至該總EVS目標位元速率來判定一第一總實際EVS位元速率;使用該一或多個處理器,利用該第一總實際EVS位元速率來產生一EVS位元流;使用該一或多個處理器來產生包含該EVS位元流、該位元速率分布控制表索引及該經量化且經熵編碼空間後設資料之一IVAS位元流;根據該第一實際後設資料位元速率係大於該目標後設資料位元速率:使用該一或多個處理器,根據該第一量化策略,以一時間差方式來量化該空間後設資料;使用該一或多個處理器來熵編碼該經量化空間後設資料;使用該一或多個處理器來運算一第二實際後設資料位元速率;使用該一或多個處理器來判定該第二實際後設資料位元速率是否小於或等於該目標後設資料位元速率;及根據該第二實際後設資料位元速率係小於或等於該目標後設資料位元速率,離開該量化迴路。
  23. 如請求項22之方法,進一步包括: 使用該一或多個處理器,藉由將等於該後設資料目標位元速率與該第二實際後設資料位元速率之間之一差之一第二量之位元添加至該總EVS目標位元速率來判定一第二總實際EVS位元速率;使用該一或多個處理器,利用該第二總實際EVS位元速率來產生一EVS位元流;使用該一或多個處理器來產生包含該EVS位元流、該位元速率分布控制表索引,及該經量化且經熵編碼空間後設資料之該IVAS位元流;根據該第二實際後設資料位元係速率大於該目標後設資料位元速率:使用該一或多個處理器,根據該第一量化策略,以一非時間差方式來量化該空間後設資料;使用該一或多個處理器及base2編碼器來編碼該經量化空間後設資料;使用該一或多個處理器來運算一第三實際後設資料位元速率;及根據該第三實際後設資料位元速率係小於或等於該目標後設資料位元速率,離開該量化迴路。
  24. 如請求項23之方法,進一步包括:使用該一或多個處理器,藉由將等於該後設資料目標位元速率與該第三實際後設資料位元速率之間之一差之一第三量之位元添加至 該總EVS目標位元速率來判定一第三總實際EVS位元速率;使用該一或多個處理器,利用該第三總實際EVS位元速率來產生一EVS位元流;使用該一或多個處理器來產生包含該EVS位元流、該位元速率分布控制表索引,及該經量化且經熵編碼空間後設資料之該IVAS位元流;根據該第三實際後設資料位元速率係大於該目標後設資料位元速率:使用該一或多個處理器,將一第四實際後設資料位元速率設定為該等第一、第二及第三實際後設資料位元速率之一最小值;使用該一或多個處理器來判定該第四實際後設資料位元速率是否小於或等於最大後設資料位元速率;及根據該第四實際後設資料位元速率係小於或等於該最大後設資料位元速率:使用該一或多個處理器來判定該第四實際後設資料位元速率是否小於或等於該目標後設資料位元速率;及根據該第四實際後設資料位元速率係小於或等於該目標後設資料位元速率,離開該量化迴路。
  25. 如請求項24之方法,進一步包括:使用該一或多個處理器,藉由將等於該後設資料目標位元速率與該第四實際後設資料位元速率之間之一差之一第四量之位元添加至 該總EVS目標位元速率來判定一第四總實際EVS位元速率;使用該一或多個處理器,利用該第四總實際EVS位元速率來產生一EVS位元流;使用該一或多個處理器來產生包含該EVS位元流、該位元速率分布控制表索引,及該經量化且經熵編碼空間後設資料之該IVAS位元流;及根據該第四實際後設資料位元速率係大於該目標後設資料位元速率且小於或等於該最大目標後設資料位元速率,離開該量化迴路。
  26. 如請求項25之方法,進一步包括:使用該一或多個處理器,藉由自該總EVS目標位元速率減去等於該第四實際後設資料位元速率與該目標後設資料位元速率之間之一差之一定量之位元來判定一第五總實際EVS位元速率;使用該一或多個處理器,利用該第五實際EVS位元速率來產生一EVS位元流;使用該一或多個處理器來產生包含該EVS位元流、該位元速率分布控制表索引,及該經量化且經熵編碼空間後設資料之該IVAS位元流;及根據該第四實際後設資料位元速率係大於該最大目標後設資料位元速率,將該第一量化策略改變為一第二量化策略,且使用該第二量化策略再次進入該量化迴路,其中該第二量化策略比該第一量化策略更粗糙。
  27. 如前述請求項21至26中任一項之方法,其中該SPAR組態係由一降混字串、主動W旗標、複合空間後設資料旗標、空間後設資料量化策略、一增強語音服務(EVS)單聲道編碼器/解碼器(編解碼器)之一或多個例項之最小、最大及目標位元速率,及一時域解相關器音量降低旗標定義。
  28. 如前述請求項21至26中任一項之方法,其中EVS位元之一實際總數目等於IVAS位元之一數目減去標頭位元之一數目減去該實際後設資料位元速率,且其中若實際EVS位元之該總數小於EVS目標位元之一總數,則按以下順序自該等EVS聲道獲取位元:Z、X、Y及W,且其中可自任何聲道獲取之位元之一最大數目係該聲道之EVS目標位元之數目減去該聲道之EVS位元之最小數目,且其中若實際EVS位元之該總數大於EVS目標位元之該總數,則按以下順序將全部額外位元指派至該等降混聲道:W、Y、X及Z,且可添加至任何聲道之額外位元之最大數目係EVS位元之最大數目減去EVS目標位元之該數目。
  29. 一種解碼一浸入式語音及音訊服務(IVAS)位元流之方法,其包括:使用一或多個處理器來接收一IVAS位元流;使用一或多個處理器,自該IVAS位元流之一位元長度獲得一IVAS位元速率;使用該一或多個處理器,自該IVAS位元流獲得一位元速率分布控制表索引;使用該一或多個處理器,自該IVAS位元流之一標頭剖析一後設資 料量化策略;使用該一或多個處理器,基於該後設資料量化策略剖析且取消量化該等經量化空間後設資料位元;使用該一或多個處理器,將增強語音服務(EVS)位元之一實際數目設定為等於該IVAS位元流之一剩餘位元長度;使用該一或多個處理器及該位元速率分布控制表索引來讀取含有一或多個EVS例項之一EVS目標及EVS最小位元速率及一最大EVS位元速率之該位元速率分布控制表的表項目;使用該一或多個處理器來獲得各降混聲道之一實際EVS位元速率;及使用該一或多個處理器,利用該聲道之該實際EVS位元速率來解碼各EVS聲道;及使用該一或多個處理器,將該等EVS聲道升混至一階立體混響(FoA)聲道。
  30. 一種用於編碼及解碼浸入式語音及音訊服務(IVAS)位元流之系統,其包括:一或多個處理器;及一非暫時性電腦可讀媒體,其儲存指令,該等指令在由該一或多個處理器執行時引起該一或多個處理器執行如方法請求項1至29中任一項之操作。
  31. 一種非暫時性電腦可讀媒體,其儲存指令,該等指令在由一或多個處理器執行時引起該一或多個處理器執行如方法請求項1至29中任一項之操作。
TW109137722A 2019-10-30 2020-10-29 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體 TWI762008B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962927772P 2019-10-30 2019-10-30
US62/927,772 2019-10-30
US202063092830P 2020-10-16 2020-10-16
US63/092,830 2020-10-16

Publications (2)

Publication Number Publication Date
TW202135046A TW202135046A (zh) 2021-09-16
TWI762008B true TWI762008B (zh) 2022-04-21

Family

ID=73476272

Family Applications (2)

Application Number Title Priority Date Filing Date
TW109137722A TWI762008B (zh) 2019-10-30 2020-10-29 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
TW111112398A TWI821966B (zh) 2019-10-30 2020-10-29 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW111112398A TWI821966B (zh) 2019-10-30 2020-10-29 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體

Country Status (12)

Country Link
US (1) US20220406318A1 (zh)
EP (1) EP4052256A1 (zh)
JP (1) JP2023500632A (zh)
KR (1) KR20220088864A (zh)
CN (1) CN114616621A (zh)
AU (1) AU2020372899A1 (zh)
BR (1) BR112022007735A2 (zh)
CA (1) CA3156634A1 (zh)
IL (1) IL291655A (zh)
MX (1) MX2022005146A (zh)
TW (2) TWI762008B (zh)
WO (1) WO2021086965A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL298813A (en) * 2020-06-11 2023-02-01 Dolby Laboratories Licensing Corp Quantization and Entropy Coding of Navel Audio Codec Parameters with Low Density
WO2023141034A1 (en) * 2022-01-20 2023-07-27 Dolby Laboratories Licensing Corporation Spatial coding of higher order ambisonics for a low latency immersive audio codec
WO2024012666A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding ar/vr metadata with generic codebooks
GB2623516A (en) * 2022-10-17 2024-04-24 Nokia Technologies Oy Parametric spatial audio encoding
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190013028A1 (en) * 2017-07-07 2019-01-10 Qualcomm Incorporated Multi-stream audio coding
US20190103118A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Multi-stream audio coding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AR077680A1 (es) * 2009-08-07 2011-09-14 Dolby Int Ab Autenticacion de flujos de datos
ES2907377T3 (es) * 2017-10-04 2022-04-25 Fraunhofer Ges Forschung Aparato, procedimiento y programa informático para la codificación, la decodificación, el procesamiento de escenas y otros procedimientos relacionados con la codificación de audio espacial basada en DirAC
WO2019106221A1 (en) * 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190013028A1 (en) * 2017-07-07 2019-01-10 Qualcomm Incorporated Multi-stream audio coding
US20190103118A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Multi-stream audio coding

Also Published As

Publication number Publication date
AU2020372899A1 (en) 2022-04-21
TW202230332A (zh) 2022-08-01
JP2023500632A (ja) 2023-01-10
BR112022007735A2 (pt) 2022-07-12
EP4052256A1 (en) 2022-09-07
US20220406318A1 (en) 2022-12-22
KR20220088864A (ko) 2022-06-28
TWI821966B (zh) 2023-11-11
CN114616621A (zh) 2022-06-10
MX2022005146A (es) 2022-05-30
WO2021086965A1 (en) 2021-05-06
TW202135046A (zh) 2021-09-16
IL291655A (en) 2022-05-01
CA3156634A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
TWI762008B (zh) 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
RU2660638C2 (ru) Устройство и способ для улучшенного пространственного кодирования аудиообъектов
US20220284910A1 (en) Encoding and decoding ivas bitstreams
JP4918490B2 (ja) エネルギー整形装置及びエネルギー整形方法
TWI720530B (zh) 使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法
EP2849180B1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
JP2023551732A (ja) 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas)
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
JP2022188262A (ja) ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
TW202410024A (zh) 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
US20240105192A1 (en) Spatial noise filling in multi-channel codec
BR122023022314A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
BR122023022316A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
CN116547748A (zh) 多通道编解码器中的空间噪声填充
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
BR122023022313A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
WO2024051955A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata