TWI505262B - 具多重子流之多通道音頻信號的有效編碼與解碼 - Google Patents

具多重子流之多通道音頻信號的有效編碼與解碼 Download PDF

Info

Publication number
TWI505262B
TWI505262B TW102114404A TW102114404A TWI505262B TW I505262 B TWI505262 B TW I505262B TW 102114404 A TW102114404 A TW 102114404A TW 102114404 A TW102114404 A TW 102114404A TW I505262 B TWI505262 B TW I505262B
Authority
TW
Taiwan
Prior art keywords
data rate
channel
frame
encoder
extended
Prior art date
Application number
TW102114404A
Other languages
English (en)
Other versions
TW201405548A (zh
Inventor
Harald H Mundt
Jeffrey C Riedmiller
Karl J Roeden
Michael Ward
Phillip Williams
Original Assignee
Dolby Int Ab
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Int Ab, Dolby Lab Licensing Corp filed Critical Dolby Int Ab
Publication of TW201405548A publication Critical patent/TW201405548A/zh
Application granted granted Critical
Publication of TWI505262B publication Critical patent/TWI505262B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

具多重子流之多通道音頻信號的有效編碼與解碼 交叉參考相關申請書
本申請書主張申請於2012/5/15之美國臨時專利申請書第61/647,226號之優先權的利益,於此藉由參考來合併其全文。
本文件關於音頻編碼/解碼。尤其是,本文件關於用於增進編碼之多通道音頻信號之品質的方法及系統。
目前使用如5.1、7.1或9.1多通道音頻呈現系統的各種多通道音頻呈現系統。多通道音頻呈現系統允許產生分別源自於5+1、7+1或9+1個揚聲器位置的環繞立體聲。為了有效傳遞或為了有效儲存對應多通道音頻信號,會使用如杜比數位或杜比數位Plus的多通道音頻編解碼器(編碼器/解碼器)系統。這些多通道音頻編解碼器系統一般是向下相容的以允許N.1多通道音頻解碼器(例如, N=5)解碼並呈現至少部分的M.1多通道音頻信號(例如,M=7),其中M大於N。更具體來說,多通道音頻編解碼器系統所產生的位元流一般是向下相容的以允許N.1多通道音頻解碼器(例如,N=5)解碼並呈現至少部分的M.1多通道音頻信號(例如,M=7)。舉例來說,7.1多通道音頻信號的編碼位元流應可被5.1多通道音頻解碼器解碼。實作上述向下相容性的可能方式是將M.1多通道音頻信號編碼成複數個子流(例如,獨立子流(以下稱為IS)及一或更多依賴子流(以下稱為DS))。IS可包含基本編碼的N.1多通道音頻信號(例如,編碼的5.1音頻信號)且一或更多DS可包含替換及/或延伸通道來呈現完全M.1多通道音頻信號(如將於下方更詳細地敘述)。再者,位元流可包含各具有一或更多關聯DS的多個IS(即,複數個獨立子流)。複數個IS和關聯DS例如可用以分別攜帶複數個不同廣播節目或複數個關聯音軌(如針對不同語言或針對導演的評論等)。
本文件對付有效編碼多通道音頻信號之複數個子流(例如,IS及一或更多關聯DS或複數個IS及個別一或更多關聯DS)的方面。
根據一態樣,說明一種配置以根據一總可用資料率來編碼一多通道音頻信號的音頻編碼器。多通道音頻信號可例如是9.1、7.1或5.1多通道音頻信號。音頻編碼器可以 是訊框為基音頻編碼器,配置以編碼多通道音頻信號的一串訊框,藉此產生編碼訊框的對應序列。尤其是,編碼器可配置以根據杜比數位Plus標準來進行編碼。
多通道音頻信號可表示成用於符合一基本通道配置來呈現多通道音頻信號之通道的一基本群組、及通道之一延伸群組,其結合基本群組用於符合一延伸通道配置來呈現多通道音頻信號。一般來說,基本通道配置和延伸通道配置彼此係不同的。尤其是,延伸通道配置通常包含比基本通道配置更多數量的通道。舉例來說,通道的基本通道配置和基本群組可包含N個通道。延伸通道配置可包含M個通道,其中M大於N。在這樣情況下,通道的延伸群組可包含一或更多延伸通道以將基本通道配置延伸至延伸通道配置。再者,通道的延伸群組可包含一或更多替換通道,其當在延伸通道配置中呈現時替換通道之基本群組的一或更多通道。
在一實施例中,多通道音頻信號係7.1音頻信號,包含中、左前、右前、左環繞、右環繞、左後環繞、右後環繞通道和一低頻音效通道。在這樣情況下,通道之基本群組可包含中、左前和右前通道、以及一降混左環繞通道和一降混右環繞通道,藉此能在5.1通道配置(基本配置)中呈現多通道音頻信號。降混左環繞通道和降混右環繞通道可源於左環繞、右環繞、左後環繞、右後環繞通道(例如,如同左環繞、右環繞、左後環繞、右後環繞通道之一些或所有者的總合)。通道之延伸群組可包含左環繞、右 環繞、左後、及右後通道,藉此能在7.1通道配置(延伸通道配置)中呈現基本通道和延伸通道。應注意到上述7.1通道配置只是一個可能7.1通道配置的實例。舉例來說,左環繞和右環繞通道可稱作左和右邊通道(設置在聽者之頭前中間的+/-90度角處)。同樣地,後通道可稱為左和右後環繞通道。
音頻編碼器包含一基本編碼器,配置以根據一IS(獨立子流)資料率來編碼通道的基本群組,藉此產生一獨立子流。獨立子流可包含一串IS訊框,包含反映通道之基本群組的編碼資料。再者,音頻編碼器包含一延伸編碼器,配置以根據一DS(依賴子流)資料率來編碼通道的延伸群組,藉此產生一依賴子流。依賴子流可包含一串DS訊框,包含反映通道之延伸群組的編碼資料。在一實施例中,基本群組及/或延伸群組係配置以進行杜比數位Plus編碼。
此外,音頻編碼器包含一速率控制單元,配置以基於用於通道之基本群組之一瞬間IS編碼品質指標及/或基於用於通道之延伸群組之一瞬間DS編碼品質指標來定期地適應IS資料率和DS資料率。可適應IS資料率和DS資料率,使得IS資料率和DS資料率的總和實質上相當於(例如,等於)總可用資料率。尤其是,速率控制單元可配置以決定IS資料率和DS資料率,使得降低瞬間IS編碼品質指標與瞬間DS編碼品質指標間之差值。這可導致在可用總位元率之限制下增進結合通道之基本群組和延伸 群組的音頻品質。
瞬間IS編碼品質指標及/或瞬間DS編碼品質指標可能表明多通道音頻信號在特定時間瞬間的編碼複雜性。舉例來說,多通道音頻信號可表現成一串音頻訊框。在這樣情況下,瞬間IS編碼品質指標及/或瞬間DS編碼品質指標可能表明編碼多通道音頻信號之一或更多音頻訊框的複雜性。如此,瞬間IS編碼品質指標及/或瞬間DS編碼品質指標可從訊框至訊框地改變。因此,速率控制單元可配置以從訊框至訊框地適應IS資料率和DS資料率(取決於改變的瞬間IS編碼品質指標及/或瞬間DS編碼品質指標)。換言之,速率控制單元可配置以適應用於多通道音頻信號之訊框串的每個訊框的IS資料率和DS資料率。
瞬間IS編碼品質指標及/或瞬間DS編碼品質指標可分別包含基本編碼器及/或延伸編碼器的編碼參數。舉例來說,在杜比數位Plus編碼的情況下,瞬間IS編碼品質指標及/或瞬間DS編碼品質指標可分別包含基本編碼器及/或延伸編碼器的瞬間SNR偏移量。另外或此外,IS編碼品質指標可包含基本群組之目前(第一)訊框的一感知熵、基本群組之第一訊框的一音調、基本群組之第一訊框的一暫態特性、基本群組之第一訊框的一光譜頻寬、在基本群組之第一訊框中之暫態的存在、基本群組之通道之間相關性的程度、及基本群組之第一訊框的能量之一或更多者。同樣地,DS編碼品質指標可包含延伸群組之第一訊框的一感知熵、延伸群組之第一訊框的一音調、延伸群組 之第一訊框的一暫態特性、延伸群組之第一訊框的一光譜頻寬、在延伸群組之第一訊框中之暫態的存在、延伸群組之通道之間相關性的程度、及延伸群組之第一訊框的能量之一或更多者。
在訊框為基音頻編碼器的例子中,基本編碼器可配置以決定用於多通道信號之訊框串的一串IS訊框。同樣地,延伸編碼器可配置以決定用於多通道信號之訊框串的一串DS訊框。在這樣情況下,IS編碼品質指標可包含用於IS訊框的對應序列之一串IS編碼品質指標。同樣地,DS編碼品質指標包含用於DS訊框的對應序列之一串DS編碼品質指標。速率控制單元可接著配置以基於此串IS編碼品質指標之至少一者及/或基於此串DS編碼品質指標之至少一者來決定用於此串IS訊框之一IS訊框的IS資料率和用於此串DS訊框之一DS訊框的DS資料率。可適應IS訊框的IS資料率以及對應DS訊框的DS資料率,使得用於IS訊框之IS資料率和用於對應DS訊框之DS資料率的總和實質上是多通道音頻訊號之音頻訊框的總可用資料率。
編碼器可包含一編碼困難度決定單元,配置以基於通道之基本群組之一第一訊框來決定IS編碼品質指標、及/或基於通道之延伸群組之一對應第一訊框來決定DS編碼品質指標。第一訊框可能是待決定IS資料率和DS資料率的訊框。如此,編碼困難度決定單元可配置以分析通道之基本群組及/或通道之延伸群組的待編碼訊框,並決定可 被速率控制單元用來適應待編碼訊框之IS資料率和DS資料率的IS/DS編碼品質指標。
基本編碼器可包含一轉換單元,配置以從基本群組之第一訊框決定轉換係數的一基本區塊。同樣地,延伸編碼器可包含一轉換單元,配置以從延伸群組之對應第一訊框決定轉換係數的一延伸區塊。轉換單元可配置以施用時頻轉換,例如,修改型離散餘弦轉換(MDCT)。第一訊框可細分成複數個區塊(例如,具有重疊),且轉換單元可配置以轉換從個別第一訊框得到的樣本區塊。
再者,基本解碼器可包含一浮點數編碼單元,配置以從轉換係數的基本區塊決定指數的基本區塊和尾數的基本區塊。同樣地,延伸編碼器可包含一浮點數編碼單元,配置以從轉換係數的延伸區塊決定指數的延伸區塊和尾數的延伸區塊。速率控制單元可配置以基於總可用資料率決定用於編碼尾數之基本區塊和尾數之延伸區塊的可用尾數位元的總數量。為此目的,速率控制單元可考量從總可用資料率得到的可用位元之總數量並從用於編碼指數及/或與尾數無關之其他編碼參數之總可用位元數量減去一些位元。剩餘位元可能是可用尾數位元的總數量。再者,速率控制單元可配置以基於瞬間IS編碼品質指標及瞬間DS編碼品質指標來分配可用尾數位元的總數量給尾數之基本區塊和尾數之延伸區塊,藉此適應IS資料率和DS資料率。
尤其是,速率控制單元可配置以決定用於轉換係數的基本區塊之一基本功率譜密度(PSD)分佈。同樣地,速 率控制單元可決定用於轉換係數的延伸區塊之一延伸PSD分佈。再者,速率控制單元可決定用於轉換係數的基本區塊之一基本遮罩曲線以及用於轉換係數的延伸區塊之一延伸遮罩曲線。速率控制單元可使用基本PSD分佈、延伸PSD分佈、基本遮罩曲線及延伸遮罩曲線來分配可用尾數位元的總數量給尾數之基本區塊和尾數之延伸區塊。
甚至更具體來說,速率控制單元可配置以藉由使用一IS偏移量(亦稱為「IS SNR偏移量」)來偏移基本遮罩曲線來決定一偏移基本遮罩曲線。同樣地,速率控制單元可配置以藉由使用一DS偏移量(亦稱為「DS SNR偏移量」)來偏移延伸遮罩曲線來決定一偏移延伸遮罩曲線。再者,速率控制單元可配置以比較基本PSD分佈與偏移基本遮罩曲線,並基於比較結果來分配尾數位元之一基本數量給尾數的基本區塊。此外,速率控制單元可配置以比較延伸PSD分佈與偏移延伸遮罩曲線,並基於比較結果來分配尾數位元之一延伸數量給尾數的延伸區塊。
可決定所分配之尾數位元之總數量作為尾數位元之基本數量和尾數位元之延伸數量的總和。速率控制單元可接著配置以調整IS偏移量及DS偏移量,使得所分配之尾數位元之總數量與可用尾數位元之總數量之差值係在一預定位元臨界值之下。為此目的,速率控制單元可利用反覆搜尋架構,以判斷符合上述條件的IS偏移量及DS偏移量。特別是,速率控制單元可配置以調整IS偏移量及DS偏移量,使得IS偏移量及DS偏移量對多通道音頻信號之訊框 串是相等的,藉此適應用於多通道音頻信號之訊框串之每個訊框的IS資料率和DS資料率。如已所示,瞬間IS編碼品質指標可包含IS偏移量及/或瞬間DS編碼品質指標可包含DS偏移量。
如此,音頻編碼器可配置以進行用於通道之基本群組和用於通道之延伸群組的共同位元分配程序。換言之,基本編碼器和延伸編碼器可利用合併位元分配程序,藉此在一般基礎下(例如,在一訊框接著一個訊框的基礎下)適應IS資料率和DS資料率。
速率控制單元可配置以決定用於多通道音頻信號之第一訊框的IS偏移量及DS偏移量。舉例來說,IS資料率和DS資料率可分別在基本編碼器和延伸編碼器之輸出處分別從IS訊框和DS訊框取得。再者,速率控制單元可配置以基於用於第一訊框的IS偏移量及DS偏移量來調整用於編碼多通道音頻信號之一第二訊框的IS資料率及DS資料率。一般來說,第一訊框在第二訊框之前。尤其是,第二訊框可直接接著第一訊框而沒有任何中間訊框在第一和第二訊框之間。換言之,用於在第一訊框之前(且可能直接在前)的IS偏移量及DS偏移量可用來決定用於編碼目前第二訊框的IS資料率及DS資料率。再換言之,建議使用前面第一訊框之編碼品質的指示來調節用於編碼目前第二訊框的IS資料率及DS資料率。
特別是,速率控制單元可配置以調整用於編碼多通道音頻信號之第二訊框的IS資料率及DS資料率,使得降低 IS偏移量及DS偏移量間之差值(例如,平均降低複數個音頻訊框)。為此目的,可使用標準迴圈,其中標準迴圈適宜調節IS偏移量及DS偏移量間之差值。舉例來說,速率控制單元可配置以決定用於第一訊框的IS偏移量及DS偏移量間之差值。再者,速率控制單元可配置以用一速率偏移量來改變相較於用於第一訊框之IS資料率的用於第二訊框之IS資料率,並以負的速率偏移量來改變相較於用於第一訊框之DS資料率的用於第二訊框之DS資料率。速率偏移量(尤其是速率偏移量的符號)可取決於所決定之差值。
音頻編碼器可配置以編碼複數個(關聯)多通道音頻信號。複數個信號的每個多通道音頻信號可例如相當於不同廣播節目或不同語言。這可能對提供電影之複數個不同多通道音頻信號(例如,不同語言)的數位光碟(DVD)是有利的。複數個(關聯)多通道音頻信號可具有對應訊框(表示複數個關聯多通道音頻信號的時間間隔)。複數個多通道音頻信號之各者可表示成用於符合基本通道配置來呈現個別多通道音頻信號之通道的一基本群組,藉此提供複數個基本群組。再者,複數個多通道音頻信號之各者可表示成用於符合延伸通道配置來呈現個別多通道音頻信號之通道的一延伸群組(與基本群組結合),藉此提供複數個延伸群組。
音頻編碼器可包含複數個基本編碼器用於根據複數個IS資料率來編碼複數個基本群組,藉此產生複數個個別 IS。應注意到合併基本編碼器可配置以編碼複數個基本群組以產生複數個個別IS。同樣地,音頻編碼器可包含複數個延伸編碼器用於根據複數個DS資料率來編碼複數個延伸群組,藉此產生複數個個別DS。應注意到合併延伸編碼器可配置以編碼複數個延伸群組以產生複數個個別DS。
速率控制單元可接著配置以基於用於通道之複數個基本群組之一或更多瞬間IS編碼品質指標及/或基於用於通道之複數個延伸群組之一或更多瞬間DS編碼品質指標來定期地適應複數個IS資料率和複數個DS資料率,使得複數個IS資料率和複數個DS資料率的總和實質上相當於總可用資料率。瞬間編碼品質指標可例如是用於編碼複數個基本群組/延伸群組的SNR偏移量。尤其是,速率控制單元可配置以對複數個IS和對應複數個DS施用本文件中所述之速率分配/位元分配。如此,每個IS和每個DS可具有變化的資料率(例如,從訊框到訊框改變),儘管複數個編碼之多通道音頻信號(即,複數個IS和DS)的整個位元率仍是固定的。
根據另一態樣,說明一種根據一總可用資料率來編碼一多通道音頻信號的方法。多通道音頻信號可表示成用於符合一基本通道配置來呈現多通道音頻信號之通道的一基本群組、及通道之一延伸群組,其結合基本群組用於符合一延伸通道配置來呈現多通道音頻信號。基本通道配置和延伸通道配置彼此係不同的。
方法可包含根據一IS資料率來編碼通道的基本群組,藉此產生一獨立子流。方法可更包含根據一DS資料率來編碼通道的延伸群組,藉此產生一依賴子流。此外,方法可包含基於用於通道之基本群組之一瞬間IS編碼品質指標及/或基於用於通道之延伸群組之一瞬間DS編碼品質指標來定期地適應IS資料率和DS資料率,使得IS資料率和DS資料率的總和實質上相當於總可用資料率。
方法可更包含基於通道之基本群組之引用來決定IS編碼品質指標、及/或基於通道之延伸群組之對應引用來決定DS編碼品質指標。基本群組/延伸群組之引用可例如是基本群組/延伸群組的一或更多訊框。如此,IS編碼品質指標及/或DS編碼品質指標可基於傳至音頻編碼器的輸入信號來決定。舉例來說,編碼品質指標可基於基本/延伸群組之引用的感知熵、基於基本/延伸群組之引用的音調、基於基本/延伸群組之引用的暫態特性、基於基本/延伸群組之引用的光譜頻寬、在基本/延伸群組之引用中之暫態的存在、基本/延伸群組之通道之間相關性的程度、及/或基於基本/延伸群組之引用的能量來決定。
另外或此外,IS編碼品質指標可能是獨立子流之引用之感知品質(即,編碼信號的感知品質)的指示。同樣地,DS編碼品質指標可能是依賴子流之引用之感知品質(即,編碼信號的感知品質)的指示。
在這樣情況中,適應IS資料率和DS資料率可包含適應IS資料率和DS資料率來編碼獨立子流之引用和依賴子 流之引用,使得IS編碼品質指標與DS編碼品質指標間的絕對差在一差異臨界值之下。舉例來說,差異臨界值實質上可能是零。如同上述,當編碼獨立子流之引用和依賴子流之引用時,可藉由使用共同位元分配來達到適應IS資料率和DS資料率。
另外,適應IS資料率和DS資料率可包含基於IS編碼品質指標與DS編碼品質指標間的差異來適應IS資料率和DS資料率來編碼獨立子流之又一引用和依賴子流之對應又一引用。基本和延伸群組之又一引用可在基本和延伸群組之引用之後。舉例來說,基本和延伸群組之又一引用可直接接在基本和延伸群組之引用之後而沒有中間引用。如此,可基於反饋IS/DS編碼品質指標來從引用至引用地適應IS資料率和DS資料率。
根據又一態樣,說明一種軟體程式。軟體程式可適應於當在處理器上實現時執行在處理器上並進行本文件所述的方法步驟。
根據另一態樣,說明一種儲存媒體。儲存媒體可包含適應於當在處理器上實現時執行在處理器上並進行本文件所述之方法步驟的軟體程式。
根據又一態樣,說明一種電腦程式產品。電腦程式可包含用於當在電腦上執行時進行本文件所述之方法步驟的可執行指令。
應注意到可單獨地或與本文中揭露之其他方法和系統結合地使用包括如本專利申請書所述之較佳實施例的方法 和系統。再者,本專利申請書中所述之方法和系統的所有態樣可任意合併。尤其是,申請專利範圍的特徵可以任意方式彼此結合。此外,雖然可以特定順序提出方法的步驟,但可不以提出的順序來結合或進行步驟。
100‧‧‧編碼器
101‧‧‧音頻通道
102‧‧‧降混環繞通道
103‧‧‧降混環繞通道
105‧‧‧IS編碼器
106‧‧‧DS編碼器
109‧‧‧降混單元
110‧‧‧獨立子流
120‧‧‧依賴子流
121‧‧‧基本群組
122‧‧‧延伸群組
150‧‧‧序列
151‧‧‧核心訊框
152‧‧‧延伸訊框
153‧‧‧延伸訊框
161‧‧‧IS訊框
162‧‧‧DS訊框
200‧‧‧多通道解碼器系統
210‧‧‧多通道解碼器系統
201‧‧‧編碼IS
205‧‧‧解碼器
221‧‧‧解碼基本群組
202‧‧‧編碼DS
215‧‧‧解碼器
222‧‧‧解碼延伸群組
211‧‧‧降混環繞通道
230‧‧‧多通道配置
231‧‧‧位置
232‧‧‧位置
233‧‧‧位置
300‧‧‧編碼器
301‧‧‧輸入信號條件單元
302‧‧‧時頻轉換單元
303‧‧‧共同通道處理單元
304‧‧‧區塊浮點數編碼單元
305‧‧‧位元分配單元
306‧‧‧量化單元
311‧‧‧PCM樣本
312‧‧‧轉換係數
313‧‧‧編碼指數
314‧‧‧尾數
315‧‧‧位元分配參數
317‧‧‧編碼尾數
318‧‧‧AC-3訊框
401‧‧‧原始指數
402‧‧‧轉換係數
410‧‧‧PSD分佈
421‧‧‧遮罩器頻率
422‧‧‧遮罩臨界曲線
423‧‧‧遮罩模板
430‧‧‧加頻PSD分佈
431‧‧‧頻域遮罩曲線
441‧‧‧頻域遮罩曲線
501‧‧‧速率控制單元
505‧‧‧輸出資料
506‧‧‧輸出資料
510‧‧‧方法
521-542‧‧‧步驟
550‧‧‧編碼器
551‧‧‧編碼困難度決定單元
552‧‧‧多通道音頻信號
553‧‧‧速率控制單元
561‧‧‧IS資料率
562‧‧‧DS資料率
600‧‧‧編碼器
601‧‧‧SNR偏移量誤差單元
602‧‧‧符號決定單元
603‧‧‧資料率偏移量
605‧‧‧IS修改單元
606‧‧‧DS修改單元
以下以示範方式參考附圖來說明本發明,其中第1a圖顯示示範多通道音頻編碼器的高階方塊圖;第1b圖顯示編碼訊框的示範序列;第2a圖顯示示範多通道音頻解碼器的高階方塊圖;第2b圖顯示7.1多通道音頻信號的示範揚聲器配置;第3圖繪示多通道音頻編碼器之示範元件的方塊圖;第4a至4e圖繪示示範多通道音頻編碼器的特定態樣;第5a圖顯示包含共同速率控制之示範多通道音頻編碼器的方塊圖;第5b圖顯示示範多通道音頻編碼架構的流程圖;第5c圖顯示包含共同速率控制之又一示範多通道音頻編碼器的方塊圖;及第6圖顯示包含共同速率控制之另一示範多通道音頻編碼器的方塊圖。
如前言章節中所述,希望提出多通道音頻編解碼器系統,其產生與被特定多通道音頻解碼器解碼之許多通道向下相容的位元流。尤其是,希望編碼M.1多通道音頻信號,使得其能被N.1多通道音頻解碼器解碼,其中N<M。舉例來說,希望編碼7.1音頻信號,使得其能被5.1音頻解碼器解碼。為了考慮向下相容性,多通道音頻編解碼器通常將M.1多通道音頻信號編碼成獨立(子)流(「IS」)(包含減少數量的通道(例如,N.1通道))及一或更多依賴(子)流(「DS」)(包含替換及/或延伸通道),以解碼並呈現完全M.1音頻信號。
在本文中,希望考慮有效編碼IS和一或更多DS。本文件說明能夠有效編碼IS和一或更多DS的方法及系統,而同時維持IS和一或更多DS的獨立性以維持多通道音頻編解碼器系統的向下相容性。基於杜比數位Plus(DD+)編解碼器系統(亦稱為增強AC-3)來說明方法及系統。DD+編解碼器系統係在高階電視系統委員會(ATSC)之日期為2010/11/22的文件A/52:2010「數位音頻壓縮標準(AC-3、E-AC-3)」中規定,藉由引用合併其內容。然而,應注意本文件中所述的方法及系統通常是可應用的且可應用於將多通道音頻信號編碼成複數個子流的其他音頻編解碼器系統。
常使用的多通道配置(及多通道音頻信號)是7.1配置和5.1配置。5.1多通道配置一般包含L(左前)、C(中前)、R(右前)、Ls(左環繞)、Rs(右環繞)、 及LFE(低頻音效)通道。7.1多通道配置又包含Lb(左後環繞)及Rb(右後環繞)通道。第2b圖中繪示示範7.1多通道配置。為了在DD+中傳送7.1通道,使用兩個子流。第一子流(稱為獨立子流,「IS」)包含5.1通道混合,且第二子流(稱為依賴子流,「DS」)包含延伸通道及替換通道。例如,為了編碼及以後環繞Lb和Rb傳送7.1多通道音頻信號,獨立子流傳送通道L(左前)、C(中前)、R(右前)、Lst(左環繞降混)、Rst(右環繞降混)、LFE(低頻音效)通道,且依賴通道傳送延伸通道Lb(左後環繞)、Rb(右後環繞)、及替換通道Ls(左環繞)、Rs(右環繞)。當進行完全7.1信號解碼器時,來自依賴子流的Ls和Rs通道取代獨立子流的Lst和Rst通道。
第1a圖顯示繪示5.1和7.1通道之間的關係之示範DD+ 7.1多通道音頻編碼器100的高階方塊圖。多通道音頻信號的七加一音頻通道101(L、C、R、Ls、Lb、Rs和Rb加上LFE)被分成兩個音頻通道群組。通道的基本群組121包含音頻通道L、C、R和LFE、以及一般源於7.1環繞通道Ls、Rs和7.1後通道Lb、Rb的降混環繞通道Lst 102和Rst 103。舉例來說,降混環繞通道102、103係藉由在降混單元109中加入Lb和Rb通道以及7.1環繞通道Ls、Rs之一些或所有者來得到。應注意可以其他方式決定降混環繞通道Lst 102和Rst 103。舉例來說,可直接從其中兩個7.1通道(例如7.1環繞通道Ls、Rs)來決 定降混環繞通道Lst 102和Rst 103。
通道的基本群組121係在DD+ 5.1音頻編碼器105中編碼,藉此產生在DD+核心訊框151(參見第1b圖)中傳送的獨立子流(「IS」)110。核心訊框151亦稱為IS訊框。音頻通道的第二群組122包含7.1環繞通道Ls、Rs和7.1後環繞通道Lb、Rb。通道的第二群組122係在DD+ 4.0音頻編碼器106中編碼,藉此產生在一或更多DD+延伸訊框152、153(參見第1b圖)中傳送的依賴子流(「DS」)120。通道的第二群組122於此稱為通道的延伸群組122,且延伸訊框152、153稱為DS訊框152、153。
第1b圖繪示編碼音頻訊框151、152、153、161、162的示範序列150。所示實例包含兩個獨立子流IS0和IS1,分別包含IS訊框151和161。多個IS(及個別DS)可用來提供多個關聯音頻信號(例如,針對電影之不同語言或針對不同節目)。每個獨立子流分別包含一或更多依賴子流DS0、DS1。每個依賴子流包含個別DS訊框152、153及162。再者,第1b圖指出多通道音頻信號之完整音頻訊框的時間長度170。音頻訊框的時間長度170可能是32ms(例如,在取樣率fs=48kHz中)。換言之,第1b圖指出編碼成一或更多IS訊框151、161及個別DS訊框152、153、162之音頻訊框的時間長度170。
第2a圖繪示示範多通道解碼器系統200、210的高階方塊圖。尤其是,第2a圖顯示示範5.1多通道解碼器系 統200,其接收包含通道之編碼基本群組121的編碼IS 201。編碼IS 201係從收到的位元流之IS訊框151獲得(例如,使用未顯示的解多工器)。IS訊框151包含通道的編碼基本群組121並使用5.1多通道解碼器205解碼,藉此產生包含通道之解碼基本群組221的解碼5.1多通道音頻信號。再者,第2a圖顯示示範7.1多通道解碼器系統210,其接收包含通道之編碼基本群組121的編碼IS 201以及包含通道之編碼延伸群組122的編碼DS 202。如上所述,編碼IS 201可從IS訊框151得到且編碼DS 202可從收到之位元流的DS訊框152、153得到(例如,使用未顯示的解多工器)。解碼之後,便得到包含通道之解碼基本群組221和通道之解碼延伸群組222的解碼7.1多通道音頻信號。應注意當7.1多通道解碼器215利用通道之解碼延伸群組222來替代時,可能降低降混環繞通道Lst、Rst 211。7.1多通道音頻信號的典型呈現位置232係顯示在第2b圖的多通道配置230中,其亦繪示聽者的示範位置231和用於視頻呈現之螢幕的示範位置233。
目前,藉由第一核心5.1通道DD+編碼器105和第二DD+編碼器106來進行編碼DD+中的7.1通道音頻信號。第一DD+編碼器105編碼基本群組121的5.1通道(且因此可稱為5.1通道編碼器),且第二DD+編碼器106編碼延伸群組122的4.0通道(且因此可稱為4.0通道編碼器)。用於通道之基本群組121和延伸群組122的編碼器105、106一般並不了解彼此。兩編碼器105、106之各者 被提供資料率,其相當於固定部分的總可用資料率。換言之,用於IS的編碼器105和用於DS的編碼器106被提供固定部分的總可用資料率(例如,X%的總可用資料率用於IS的編碼器105(稱為「IS資料率」)及100%-X%的總可用資料率用於DS的編碼器106(稱為「DS資料率」,例如X=50)。分別使用分配的資料率(即,IS資料率和DS資料率),IS編碼器105和DS編碼器106分別進行通道之基本群組121和通道之延伸群組122的獨立編碼。
在本文件中,打算產生IS編碼器105和DS編碼器106之間的依賴性且藉此增加整個多通道編碼器100的效率。尤其是,打算基於通道之基本群組121和通道之延伸群組122的特性或情況提出IS資料率和DS資料率的適應分配。
接下來,第3圖之內文中說明關於IS編碼器105和DS編碼器106之元件的進一步細節,第3圖顯示示範DD+多通道編碼器300的方塊圖。IS編碼器105和/或DS編碼器106可藉由第3圖的DD+多通道編碼器300來實作。說明編碼器300之元件之後,說明如何適應多通道編碼器300以允許上述之IS資料率和DS資料率的適應分配。
多通道編碼器300接收對應於多通道輸入信號(例如,5.1輸入信號)之不同通道的PCM樣本之流311。PCM樣本之流311可配置成PCM樣本的訊框。每個訊框 可包含預定數量之多通道音頻信號的特定通道之PCM樣本(例如,1536個樣本)。如此,對於多通道音頻信號的每個時間片段,為多通道音頻信號的每個不同通道提供不同音頻訊框。接下來為多通道音頻信號的特定通道說明多通道音頻編碼器300。然而,應注意產生的AC-3訊框318一般包含多通道音頻信號的所有通道之編碼資料。
包含PCM樣本311的音頻訊框可在輸入信號條件單元301中過濾。接著,(經過濾的)樣本311可在時頻轉換單元302中從時域轉換成頻域。為此目的,音頻訊框可再細分成複數個樣本區塊。區塊可具有預定長度L(例如,每個區塊有256個樣本)。再者,鄰近區塊可具有來自音頻訊框之某種程度重疊(例如,50%重疊)的樣本。每音頻訊框的區塊數量可取決於音頻訊框的特性(例如,暫態的存在)。一般來說,時頻轉換單元302對從音頻訊框得到之PCM樣本的每個區塊施用時頻轉換(例如,MDCT(修改型離散餘弦轉換)轉換)。如此,對樣本的每個區塊,在時頻轉換單元302的輸出處得到轉換係數312之區塊。
可分開處理多通道輸入信號的每個通道,藉此提供分開的轉換係數312之區塊串給多通道輸入信號的不同通道。考慮到多通道輸入信號之一些通道之間的相關性(例如,環繞信號Ls和Rs之間的相關性),可在共同通道處理單元303中進行共同通道處理。在一示範實施例中,共同通道處理單元303進行通道結合,藉此將一群結合通道 轉成單一混合通道加上可被對應解碼器系統200、210使用以從單一混合通道重新建構個別通道的結合側資訊。舉例來說,可結合5.1音頻信號的Ls和Rs通道或可結合L、C、R、Ls和Rs通道。若在單元303中使用結合,則只有提交單一混合通道至第3圖中所示的進一步處理單元。否則,傳遞個別通道(即,轉換係數312之區塊的個別序列)至編碼器300的進一步處理單元。
接下來,針對轉換係數312之區塊的示範序列說明編碼器的進一步處理單元。說明可應用於待編碼之每個通道(例如,多通道輸入信號的個別通道或由通道結合產生的一或更多混合通道)。
區塊浮點數編碼單元304係配置以將通道(可用於所有通道,包括完全頻寬通道(例如,L、C和R通道)、LFE(低頻音效)通道、及結合通道)之轉換係數312轉成指數/尾數格式。藉由將轉換係數312轉成指數/尾數格式,會產生不受絕對輸入信號準位影響之從轉換係數312之量化產生的量化雜訊。
一般來說,在單元304中進行的區塊浮點數編碼可將每個轉換係數312轉成一指數和一尾數。指數會儘可能有效率地被編碼以降低傳送編碼之指數313所需的資料率負擔。同時,指數應儘可能準確地被編碼以避免失去轉換係數312的光譜解析度。接下來,簡要地說明在DD+中使用以達到上述目標的示範區塊浮點數編碼架構。針對關於DD+編碼架構(且尤其是,由DD+使用之區塊浮點數編碼 架構)的進一步細節,參考文件Fielder,L.D.等人的「Introduction to Dolby Digital Plus,and Enhancement to the Dolby Digital Coding System」,AEC規範,2004/10/28-31,藉由引用來合併內容。
在區塊浮點數編碼的第一步驟中,可為轉換係數312的區塊決定原始指數。這顯示在第4a圖中,為轉換係數402的示範區塊繪示原始指數401的區塊。假設轉換係數402具有值X,其中可正規化轉換係數402,使得X小於或等於1。可以尾數/指數格式X=m*2(-e)來表示值X,其中m是尾數(m<=1)且e是指數。在一實施例中,原始指數401可具有0和24之間的值,藉此涵蓋超過144dB的動態範圍(即,2(-0)至2(-24))。
為了更減少編碼(原始)指數401所需的位元數,可施用各種架構,如跨完整音頻訊框之轉換係數312的區塊(一般來說每個音頻訊框有6個區塊)之指數的時間共享。再者,可跨頻率地共享指數(即,跨轉換/頻域中的毗連頻率區間)。舉例來說,可跨二或四個頻率區間地共享指數。此外,可遮蓋轉換係數312的區塊之指數以確保毗連指數之間的差異不超過預定最大值,例如+/-2。這樣能夠有效相差編碼轉換係數312的區塊之指數(例如,使用五個差值)。用於降低編碼指數(如分時、共頻、暫行且相差編碼)所需之資料率的上述架構可以不同方式結合以定義導致用於編碼指數之不同資料率的不同指數編碼模式。由於上述指數編碼,為音頻訊框之轉換係數312的區 塊(例如,每個音頻訊框有6個區塊)得到一串編碼指數313。
當在單元304中進行之區塊浮點數編碼架構的另一步驟時,藉由對應產生之編碼指數e’來正規化原始轉換係數402的尾數m’。產生之編碼指數e’可能不同於上述原始指數e(由於分時、分頻及/或遮蓋步驟)。針對第4a圖的每個轉換係數402,正規化的尾數m’可決定為X=m’*2(-e’),其中X是原始轉換係數402的值。音頻訊框之區塊的正規化之尾數m’314可傳至量化單元306來量化尾數314。尾數314的量化(即,量化尾數317的準確性)取決於可用於尾數量化的資料率。在位元分配單元305中決定可用的資料率。
單元305中進行的位元分配程序符合心理音響原理來決定能分配給每個正規化尾數314的位元數量。位元分配程序包含決定用於量化音頻訊框之正規化尾數的可用位元數之步驟。再者,位元分配程序決定用於每個通道的功率譜密度(PSD)分佈和頻域遮罩曲線(基於音響心理學模型)。PSD分佈和頻域遮罩曲線係用來決定實質上可用位元之最佳分佈給音頻訊框的不同正規化尾數314。
位元分配程序中的第一步驟係用來決定多少尾數位元可用於編碼正規化尾數314。目標資料率轉譯成可用於編碼目前音頻訊框的位元總數量。尤其是,目標資料率為編碼之多通道音頻信號規定一數量k位元/秒。考量T秒的訊框長度,位元總數量可決定為T*k。可藉由刪減已用於 編碼音頻訊框的位元(如元資料、區塊切換旗標(用於發信測到的暫態和選擇的區塊長度))、結合縮放因子、指數等從位元總數量決定尾數位元的可用數量。位元分配程序亦可刪減可能仍需要分配給其他方面(如位元分配參數315(參見下方))的位元。所以,可決定可用尾數位元的總數量。接著可在所有通道(例如,主通道、LFE通道、和結合通道)之間分配可用尾數位元的總數量給音頻訊框的所有(例如,一、二、三或六個)區塊。
當另一步驟時,可決定轉換係數312的區塊之功率譜密度(「PSD」)分佈。PSD是一種在輸入信號之每個轉換係數頻率區間中之信號能量的測量。PSD可基於編碼之指數313來決定,藉此啟動對應多通道音頻解碼器系統200、210來以與多通道音頻編碼器300相同方式決定PSD。第4b圖繪示已從編碼指數313得到之轉換係數312之區塊的PSD分佈410。PSD分佈410可用來計算用於轉換係數312之區塊的頻域遮罩曲線431(參見第4d圖)。頻域遮罩曲線431考慮到描述遮罩器頻率遮蔽直接在遮罩器頻率附近的頻率之現象的音響心理學遮蔽效應,藉此若其能量在某種遮罩臨界值以下則呈現直接在遮罩器頻率附近之聽不見的頻率。第4c圖顯示遮罩器頻率421及用於鄰近頻率的遮罩臨界曲線422。實際的遮罩臨界曲線422可藉由在DD+編碼器中使用的(兩段式)(分段式線性)遮罩模板423來塑造。
已注意到遮罩臨界曲線422的斜率(且結果亦是遮罩 模板423)實質上仍不依照(例如,Zwicker)定義之關鍵頻帶大小(或對數大小)的不同遮罩器頻率而改變。基於此觀察,DD+編碼器在加頻PSD分佈上施用遮罩模板423(其中加頻PSD分佈相當於關鍵頻帶大小的PSD分佈,其中頻帶大約是一半關鍵的頻寬)。在加頻PSD分佈的情況下,對關鍵頻帶大小(或對數大小)的複數個頻帶之每一者決定單一PSD值。第4d圖繪示用於第4b圖之線性間隔PSD分佈410的示範加頻PSD分佈430。加頻PSD分佈430可藉由結合(例如,使用log-add運算)來自線性間隔PSD分佈410的PSD值(其落在關鍵頻帶大小(或對數大小)的相同頻帶內)從線性間隔PSD分佈410決定。遮罩模板423可施用於加頻PSD分佈430之每個PSD值,藉此為關鍵頻帶大小(或對數大小)的轉換係數402之區塊產生全頻域遮罩曲線431(參見第4d圖)。
第4d圖的全頻域遮罩曲線431可擴充回線性頻率解析度且可與第4b圖所示之轉換係數402之區塊的線性PSD分佈410比較。這繪示在第4e圖中,其顯示線性解析度的頻域遮罩曲線441、以及線性解析度的PSD分佈410。應注意頻域遮罩曲線441亦可考量到聽覺靈敏度曲線的絕對臨界值。用於編碼特定頻率區間之轉換係數402之尾數的位元數可基於PSD分佈410和基於遮罩曲線441來決定。尤其是,落在遮罩曲線441下方之PSD分佈410的PSD值相當於在感知上不相關的尾數(因為在這類頻 率區間中的音頻信號之頻率成分會被附近的遮罩器頻率遮蔽)。結果,上述轉換係數402的尾數完全不需要分配任何位元。另一方面,為上方遮罩曲線411之PSD分佈410的PSD值表示在這些頻率區間中的轉換係數402之尾數應是分配位元用於編碼。分配給上方尾數之位元數應隨著增加PSD分佈410的PSD值和遮罩曲線441之值之間的差異而增加。上述位元分配程序導致位元的分配442給不同轉換係數402,如第4e圖所示。
為所有通道(例如,直接通道、LFE通道、和結合通道)且為音頻訊框的所有區塊進行上述位元分配程序,藉此產生分配位元的全部(開端)數量。此分配位元的全部開端數量不太可能符合(例如,等於)可用尾數位元的總數量。在一些情況下(例如,用於複雜音頻信號),分配位元的全部開端數量可能超過可用尾數位元的數量(位元飢餓)。在其他情況下(例如,在簡單音頻信號之情況中),分配位元的全部開端數量可能在可用尾數位元的數量之下(位元過剩)。編碼器300通常嘗試使分配位元的全部(最後)數量僅可能接近地相配可用尾數位元的數量。為此目的,編碼器300可利用所謂的SNR偏移量參數。SNR偏移量能夠藉由相對於PSD分佈410地移動遮罩曲線441上或下來調整遮罩曲線441。藉由移動遮罩曲線441上或下,能分別減少或增加分配位元的(開端)數量。如此,可以反覆方式調整SNR偏移量直到符合結束標準(例如,分配位元的開端數量僅可能接近(但小於) 可用位元的數量之標準;或已進行預定最大之重複次數之標準)為止。
如上所述,用於能夠最加相配分配位元的最後數量和可用位元的數量之SNR偏移量的重複搜尋可利用二元搜尋。在每次重複中,判斷分配位元的開端數量是否超過可用位元的數量。基於此判斷步驟,修正SNR偏移量並進行另一重複。二元搜尋係配置以使用(log2 (K)+1)重複來決定最佳相配(及對應SNR偏移量),其中K是可能SNR偏移量的數量。在結束重複搜尋之後,得到分配位元的最後數量(其通常相當於先前決定之分配位元的開端數量之其一者)。應注意分配位元的最後數量可能(稍微)小於可用位元之數量。在上述情況中,可使用略過位元來完全匹配分配位元的最後數量和可用位元之數量。
可定義SNR偏移量,使得零之SNR偏移量在編碼之尾數之前,這導致已知為在原始音頻信號與編碼信號之間之「恰辨差」的編碼情況。換言之,在零之SNR偏移量下,編碼器300符合感知模型來運作。正值的SNR偏移量可使遮罩曲線441往下移動,藉此增加分配位元的數量(通常沒有任何明顯的品質改善)。負值的SNR偏移量可使遮罩曲線441往上移動,藉此減少分配位元的數量(且因此通常增加可聽見的量化雜訊)。SNR偏移量可例如是具有從-48至+144dB之有效範圍的10位元參數。為了找到最佳的SNR偏移量,編碼器300可進行反覆二元搜尋。反覆二元搜尋接著可能需要高達11次(在10位元 參數之情況下)的PSD分佈410/遮罩曲線441比較。實際使用的SNR偏移量值可如同位元分配參數315傳送至對應解碼器。再者,符合(最後)分配位元來編碼尾數,藉此產生一組編碼尾數317。
如此,可使用SNR(噪訊比)偏移量參數作為編碼之多通道音頻信號之編碼品質的指標。根據上述SNR偏移量之規範,零之SNR偏移量表示編碼之多通道音頻信號對原始多通道音頻信號具有「恰辨差」。正的SNR偏移量表示編碼之多通道音頻信號對原始多通道音頻信號至少具有「恰辨差」的品質。負的SNR偏移量表示編碼之多通道音頻信號具有小於對原始多通道音頻信號之「恰辨差」的品質。應注意可能有SNR偏移量參數的其他規範(例如,反規範)。
編碼器300更包含位元流封裝單元307,其配置以排列編碼指數313、編碼尾數317、位元分配參數315、以及其他編碼資料(例如,區塊切換旗標、元資料、結合縮放因子等)成預定訊框結構(例如,AC-3訊框結構),藉此產生多通道音頻信號之音頻訊框的編碼訊框318。
如上已述,且如第1a圖所示,7.1 DD+流一般係藉由使用IS編碼器105獨立地編碼通道之基本群組121而產生IS 110以及使用DS編碼器106編碼通道之延伸群組122而產生DS 120來編碼。一般來說提供總資料率的固定部分給IS編碼器105和DS編碼器106,即每個編碼器105、106進行獨立位元分配程序而沒有交互影響兩個編 碼器105、106。一般來說,IS編碼器105被分配X%的總資料率且DS編碼器106被提供100-X%的總資料率,其中X是固定值,例如X=50。
如上所述,多通道編碼器300調整SNR偏移量,使得分配位元的總(最後)數量(儘可能接近地)匹配可用位元的總數量。在此位元分配程序的內文中,可調整(例如,增加/減少)SNR偏移量,使得增加/減少分配位元的數量。然而,若編碼器300分配多於達到「恰辨差」所須的位元,則實際上浪費了額外分配的位元,因為額外分配的位元通常不導致增進編碼音頻信號之感知品質。有鑒於此,建議提供彈性和結合位元分配程序給IS編碼器105和DS編碼器106,藉此使兩個編碼器105、106能沿著時間軸動態地調整用於IS編碼器105的總資料率之部分(稱為「IS資料率」)和用於DS編碼器106的總資料率之部分(稱為「DS資料率」)(符合多通道音頻信號的需求)。更好地調整IS資料率和DS資料率,使得任何時間其總和相當於總資料率。結合位元分配程序係繪示在第5a圖中。第5a圖顯示IS編碼器105和DS編碼器106。再者,第5a圖顯示速率控制單元501,配置以基於從IS編碼器105反饋的輸出資料505及基於從DS編碼器106反饋的輸出資料506來決定IS資料率和DS資料率。輸出資料505、506可例如分別是編碼IS 110和編碼DS 120;及/或個別編碼器105、106的SNR偏移量。如此,速率控制單元501可考量來自兩個編碼器105、106之輸出資料 505、506來動態地決定IS資料率和DS資料率。在較佳實施例中,進行IS資料率和DS資料率的變數分配,使得變數分配不會影響對應之多通道音頻解碼器系統200、210。換言之,變數分配應透明於對應之多通道音頻解碼器系統200、210。
實作IS/DS資料率之變數分配的可能方法是實作共享位元分配程序來分配尾數位元。IS編碼器105和DS編碼器106可獨立地進行在尾數位元分配程序(進行在位元分配單元305中)之前的編碼步驟。尤其是,可以獨立方式在IS編碼器105和DS編碼器106中進行區塊切換旗標、結合縮放因子、指數、光譜延伸等的編碼。另一方面,可共同地進行在IS編碼器105和DS編碼器106之個別單元305中進行的位元分配程序。一般來說IS和DS有大約80%的位元會用於編碼尾數。因此,即使除了尾數位元分配外,IS和DS編碼器105、106獨立運作來編碼,仍共同地進行編碼的重要部分(即,尾數位元分配)。
換言之,建議獨立編碼通道之每個群組的「固定」資料(例如,指數、結合座標、光譜延伸等)。接著,使用總剩餘位元為基本群組121和延伸群組122進行單一位元分配程序。然後,量化並封裝兩流的尾數以產生IS的編碼訊框151(稱為IS訊框151)和DS的編碼訊框152(稱為DS訊框152)。由於結合的位元分配程序,IS訊框151可沿著時間軸改變大小(由於改變IS資料率)。同樣地,DS訊框152可沿著時間軸改變大小(由於改變 DS資料率)。然而,針對每個時間片段170(即,針對多通道音頻信號的每個音頻信號),IS訊框151和DS訊框152之大小總合實質上應是固定的(由於固定總資料率)。再者,由於結合的位元分配程序,IS和DS的SNR偏移量應是相同的,因為在共同位元分配單元305中進行的共同位元分配程序調整共同SNR偏移量以匹配分配尾數位元之數量(共同用於IS和DS)與可用尾數位元之數量(共同用於IS和DS)。對IS和DS具有相同SNR偏移量的事實應藉由允許大部分位元飢餓的子流(例如IS)若且當其他子流(例如DS)是過剩時使用額外位元來增進整個品質。
第5b圖繪示示範結合IS/DS編碼方法510的流程圖。方法包含分別用於基本群組121和延伸群組122之信號訊框的分開信號條件步驟521、531。方法510繼續進行分別用於來自基本群組121之區塊和來自延伸群組122之區塊的分開時頻轉換步驟522、532。接下來,可分別為基本群組121和延伸群組122進行共同通道處理步驟523、533。舉例來說,在基本群組121的例子中,可結合所有通道(除了LFE通道)的Lst和Rst通道(步驟523),其中針對延伸群組122,可結合Ls和Rs、及/或Lb和Rb通道(步驟533),藉此產生個別結合通道和結合參數。再者,可分別為基本群組121之區塊並為延伸群組122之區塊進行區塊浮點數編碼524、534。於是,分別為基本群組121並為延伸群組122獲得編碼之指數 313。可如第3圖之內文中所述地進行上述處理步驟。
方法510包含共同位元分配步驟540。共同位元分配540包含一共同步驟541,用來決定可用尾數位元,即用來決定可用於編碼基本群組121和延伸群組122之尾數之位元總數量。再者,方法510包含分別用於基本群組121之區塊和延伸群組122之區塊的PSD分佈決定步驟525、535。此外,方法510包含分別用於基本群組121和延伸群組122的遮罩曲線決定步驟526、536。如上所述,為多通道信號的每個通道和信號訊框的每個區塊決定PSD分佈和遮罩曲線。在PSD/遮罩比較步驟527、537(分別用於基本群組121和延伸群組122)的內文中,比較PSD分佈和遮罩曲線且分別分配位元給基本群組121和延伸群組122的尾數。為每個通道和每個區塊進行這些步驟。再者,為特定SNR偏移量進行這些步驟(這等於PSD/遮罩比較步驟527和537)。
在使用特定SNR偏移量來分配位元給尾數之後,方法510繼續進行決定分配尾數位元之總數量的共同相配步驟542。再者,在步驟542之內文中判斷分配尾數位元之總數量是否與(在步驟514中決定之)可用尾數位元之總數量相配。若判斷為理想相配,則方法510繼續基於在步驟527、537中決定之尾數位元之分配來分別量化528、538基本群組121和延伸群組122的尾數。再者,分別在位元流封裝步驟529、539中決定IS訊框151和DS訊框152。另一方面,若尚未判斷為理想相配,則修改SNR偏 移量並重覆PSD/遮罩比較步驟527和537和相配步驟542。重覆步驟527、537和542直到判斷為理想相配及/或直到達到結束條件(例如,重覆的最大次數)為止。
應注意為多通道信號之每個通道並為信號訊框的每個區塊進行PSD決定步驟525、535、遮罩曲線決定步驟526、536及PSD/遮罩比較步驟527、537。因此,分開為基本群組121和延伸群組122進行(藉由定義)這些步驟。取決於此事實,分開為多通道信號之每個通道進行這些步驟。
總體而言,編碼方法510導致增進分配資料率給IS和DS(相較於分開的位元分配程序)。結果,增進編碼之多通道信號(包含IS和至少一DS)的感知品質(相較於使用分開IS和DS編碼器105、106編碼的編碼多通道信號)。
應注意方法510產生的IS訊框151和DS訊框152可以與分別由分開IS和DS編碼器105、106產生之IS訊框和DS訊框相容的方式來排列。尤其是,IS和DS訊框151、152可各包含允許傳統多通道解碼器系統200、210分開解碼IS和DS訊框151、152的位元分配參數。尤其是,(相同的)SNR偏移量值可插入IS訊框151和DS訊框152中。因此,基於方法510的多通道編碼器可與傳統多通道解碼器系統200、210一起使用。
可能希望使用標準IS編碼器105和標準DS編碼器106來分別編碼基本群組121和延伸群組122。這可能有 益於成本理由。再者,在某些情況下,也許不可能實作如第5b圖之內文所述的共同位元分配程序540。然而,仍希望能夠適應IS資料率和DS資料率給多通道音頻信號,且藉此增進編碼之多通道音頻信號的整體品質。
為了能夠適應IS資料率和DS資料率而不修改IS編碼器105和DS編碼器106,可例如基於對特定訊框之估計的相對流編碼困難度來外部控制IS資料率和DS資料率給IS/DS編碼器105、106。可例如基於感知熵、基於音調或基於能量來估計對特定訊框的相對流編碼困難度。可基於關於待編碼之目前訊框的編碼器輸入PCM樣本來計算編碼困難度。這可能根據任何之後編碼時間延遲(例如,LFE濾波器、HP濾波器、左和右環繞通道的90°相位偏移及/或時序先雜訊處理(TPNP)所造成)而需要正確時間對齊PCM樣本。關於編碼困難度的指標之實例可能是信號功率、光譜平坦、音調估計、暫態估計及/或感知熵。感知熵測量編碼具有量化雜訊之信號光譜所需位元的數量正好在遮罩臨界值以下。較高的感知熵值指出較高編碼困難度。具有音調特性的聲音(即,具有高音調估計的聲音)一般更難如例如在ISO/IEC 11172-3 MPEG-1心理音響學模型之遮罩曲線計算中所反映地編碼。如此,高音調估計可指出高編碼困難度(反之亦然)。編碼困難度的簡單指標可能基於通道之基本群組及/或通道之延伸群組的平均信號功率。
可比較基本群組之目前訊框和延伸群組之對應目前訊 框的估計編碼困難度且可相應地分佈IS資料率/DS資料率(及個別尾數位元)。用於決定DS資料率/IS資料率的其中一種可能公式可能是:
其中R DS 是DS資料率,R T 是總資料率,R IS 是IS資料率,D IS 是基本群組之通道的編碼困難度(例如,基本群組之通道的平均編碼困難度),D DS 是延伸群組之通道的編碼困難度(例如,延伸群組之通道的平均編碼困難度),N IS 是基本群組中之通道的數量,及N DS 是延伸群組中之通道的數量。
可決定決定之DS和IS資料率,使得用於IS及/或DS之位元數量不落在用於IS訊框及/或DS訊框之位元的固定最小數量以下。如此,可對IS及/或DS保證最小品質。尤其是,用於IS訊框及/或DS訊框之位元的固定最小數量可能受編碼來自尾數之所有資料部分(例如,指數等)所需之位元數量限制。
在另一方法中,可對相關多通道內容之最大組合決定中間(或平均)編碼困難度差(IS vs DS)。可對典型訊框(在中間編碼困難度差的預定範圍內具有一編碼困難度差)如此控制資料率分佈,使用預設資料率分佈(例如,X%和100%-X%)。否則,資料率分佈可能符合離中間編碼困難度差之實際編碼困難度差之誤差地偏離預設值。
第5c圖繪示基於編碼困難度來適應IS資料率和DS資料率的編碼器550。編碼器550包含接收多通道音頻信號552(及/或通道的基本群組121和通道的延伸群組122)的編碼困難度決定單元551。編碼困難度決定單元551分析基本群組121和延伸群組122的個別信號訊框並決定基本群組121和延伸群組122之訊框的相對編碼困難度。相對編碼困難度被傳送至速率控制單元553,其配置以基於相對編碼困難度來決定IS資料率561和DS資料率562。舉例來說,若相對編碼困難度指出對基本群組121比對延伸群組122有較高的編碼困難度,則增加IS資料率561且減少DS資料率562(反之亦然)。
適應IS資料率和DS資料率而不修改IS編碼器105和DS編碼器106的另一方法是從IS/DS訊框151、152取得一或更多編碼器參數並使用一或更多編碼器參數來修改IS資料率和DS資料率。舉例來說,考量到信號訊框(n-1)之IS/DS訊框151、152之取得的一或更多編碼器參數來決定用於編碼後面信號訊框(n)的IS/DS資料率。一或更多編碼器參數可能關於編碼之IS 110和編碼之DS 120的感知品質。舉例來說,一或更多編碼器參數可以是在IS編碼器105中使用的DD/DD+SNR偏移量(稱為IS SNR偏移量)和在DS編碼器106中使用的SNR偏移量(稱為DS SNR偏移量)。如此,從先前IS/DS訊框151、152(在時間(n-1)時)取得之IS/DS SNR偏移量可用來適應地控制用於編碼後面信號訊框(在時間(n) 時)的IS/DS資料率,使得跨多通道音頻信號流的IS/DS SNR偏移量都相等。更通用來說,可說明從IS/DS訊框151、152(在時間(n-1)時)取得之一或更多編碼器參數可用來適應地控制用於編碼後面信號訊框(在時間(n)時)的IS/DS資料率,使得跨多通道音頻信號流的一或更多編碼器參數都相等。因此,目標在於對編碼之多通道信號之不同群組提供相同品質。換言之,目標在於確保對多通道音頻信號流之所有子流的編碼之子流的品質儘可能接近。應對音頻信號之每個訊框,即對信號之所有時間或所有訊框達到此目標。
第6圖顯示包含一外部IS/DS資料率適應架構之示範編碼器600的方塊圖。編碼器600包含IS編碼器105和DS編碼器106,其可依照第3圖所示的編碼器300來配置。針對信號訊框(n-1)並針對在時間或訊框號碼(n-1)時指派之IS資料率(n-1)和DS資料率(n-1),IS/DS編碼器105、106分別提供編碼之IS訊框(n-1)和編碼之DS訊框(n-1)。IS編碼器105使用IS SNR偏移量(n-1)且DS編碼器106使用DS SNR偏移量(n-1)來分別分配IS資料率(n-1)和DS資料率(n-1)給尾數。IS SNR偏移量(n-1)和DS SNR偏移量(n-1)可分別從IS訊框(n-1)和DS訊框(n-1)取得。為了確保跨流(即,沿著訊框號碼(n))之IS SNR偏移量和DS SNR偏移量之間對準,可反饋IS SNR偏移量(n-1)和DS SNR偏移量(n-1)至IS/DS編碼器105、106的輸 入,以適應用於編碼之後信號訊框(n)的IS SNR偏移量(n)和DS SNR偏移量(n)。
尤其是,編碼器600包含SNR偏移量誤差單元601,配置以決定IS SNR偏移量(n-1)和DS SNR偏移量(n-1)之間之差值。可使用差值來控制IS/DS資料率(n)(用於之後信號訊框)。在一實施例中,比DS SNR偏移量(n-1)小(即,負的差值)的IS SNR偏移量(n-1)表示IS的感知品質很有可能低於DS的感知品質。因此,DS資料率(n)應隨著DS資料率(n-1)減少以減少之後信號訊框(n)之IS(或可能不影響)的感知品質。同時,IS資料率(n)應隨著IS資料率(n-1)增加以增加之後信號訊框(n)之IS的感知品質且亦滿足總資料率需求。基於IS SNR偏移量(n-1)之IS資料率(n)的修改係基於假設依IS SNR偏移量(n-1)參數反映之編碼困難度不明顯在兩連續訊框之間改變。同樣地,比DS SNR偏移量(n-1)大(即,正的差值)的IS SNR偏移量(n-1)可能表示IS的感知品質高於DS的感知品質。可隨著IS資料率(n-1)和DS資料率(n-1)來修改IS資料率(n)和DS資料率(n),使得降低IS的感知品質(或不影響)並增加DS的感知品質。
可以各種方式來實作上述控制機制。編碼器600包含一符號決定單元602,其配置以決定IS SNR偏移量(n-1)和DS SNR偏移量(n-1)之間之差值的符號。再者,編碼器600利用可用來修改關於在IS修改單元605中和 在DS修改單元606中之IS資料率(n-1)和DS資料率(n-1)的IS資料率(n)和DS資料率(n)之預定資料率偏移量603(例如,總可用資料率的百分比,例如,大約總可用資料率的0.5%、1%、2%、3%、4%、5%或10%)。舉例來說,若差值是負的,則IS修改單元605決定IS資料率(n)=IS資料率(n-1)+資料率偏移量,且DS修改單元606決定DS資料率(n)=DS資料率(n-1)-資料率偏移量(反之在正差值的情況下亦然)。
上述用於適應分配總資料率給IS資料率和DS資料率的外部控制架構係用來降低IS SNR偏移量和DS SNR偏移量之間的差值。換言之,上述控制架構試著校準IS SNR偏移量和DS SNR偏移量,藉此校準編碼之IS和編碼之DS的感知品質。所以,增進編碼之多通道信號(包含編碼之IS和編碼之DS)的整體感知品質(相較於使用固定IS/DS資料率的編碼器100)。
在本文件中,已說明用於編碼多通道音頻信號的方法及系統。方法及系統將多通道音頻信號編碼成複數個子流,其中複數個子流能夠有效解碼不同組合的多通道音頻信號之通道。再者,該方法與系統允許跨越多個子流的尾數位元之聯合配置量,藉此增加已編碼(且隨後解碼)多通道音頻信號的認定特性。可配置方法及系統,使得編碼之子流與傳統多通道音頻解碼器相容。
尤其是,本文件說明傳送在兩子流內之DD+中的7.1通道,其中第一「獨立」子流包含5.1通道混合,且第二 「依賴」子流包含「延伸」及/或「替換」通道。目前,7.1流的編碼一般來說是由不知道彼此的兩個核心5.1編碼器來進行。兩個核心5.1編碼器被給予資料率(總可用資料率的固定部分)並獨立進行兩子流的編碼。在本文件中,已建議在(至少)兩子流之間共享尾數位元。在一實施例中,獨立地編碼每個流的「固定」資料(指數、結合座標等)。接下來,為具有剩餘位元之兩子流進行單一位元分配程序。最後,可量化並封裝兩子流的尾數。完成此,編碼之信號的每個時間片段的大小是相同的,但個別編碼之訊框(例如,IS訊框及/或DS訊框)可改變。而且,獨立和依賴流的SNR偏移量可能是相同的(或可降低其差值)。藉由完成此,可藉由允許大部分位元飢餓的子流若/當其他子流是過剩時使用額外位元來增進整個編碼品質。
應注意儘管已在7.1DD+音頻編碼器之內文中說明方法及系統,但方法及系統可應用於產生包含多個子流之DD+位元流的其他編碼器。再者,方法及系統可應用於利用位元池、多個子流之概念且對整體資料率有限制(例如,需要固定資料率)的其他音頻/視頻編解碼器。在相關子流上運作之音頻/視頻編解碼器可依據需求地施用共享位元池以分配位元給相關資流,且當保持總資料率固定時改變子流資料率。
本文件中說明的方法及系統可實作成軟體、韌體及/或硬體。某些元件可例如實作成執行在數位信號處理器或 微處理器上的軟體。其他元件可例如實作成硬體及/或專用積體電路。在所述方法及系統中提到的信號可儲存在如隨機存取記憶體或光學儲存媒體的媒體上。它們可經由如無線電網路、衛星網路、如網際網路之無線網路或有線網路的網路來傳送。利用本文件中所述之方法和系統的典型裝置是可攜式電子裝置或用來儲存及/或呈現音頻信號的其他消費性設備。
105‧‧‧IS編碼器
106‧‧‧DS編碼器
501‧‧‧速率控制單元
505‧‧‧輸出資料
506‧‧‧輸出資料

Claims (20)

  1. 一種音頻編碼器,配置以根據一總可用資料率來編碼一多通道音頻信號;其中該多通道音頻信號可表示成用於符合一基本通道配置來呈現該多通道音頻信號之通道的一基本群組(121)、及通道之一延伸群組(122),其結合該基本群組(121)用於符合一延伸通道配置來呈現該多通道音頻信號;其中該基本通道配置和該延伸通道配置彼此係不同的;該音頻編碼器包含:一基本編碼器(105),配置以根據一IS資料率來編碼通道的該基本群組(121),藉此產生稱為IS的一獨立子流(110);一延伸編碼器(106),配置以根據一DS資料率來編碼通道的該延伸群組(122),藉此產生稱為DS的一依賴子流(120);及一速率控制單元(501),配置以基於用於通道之該基本群組(121)之一瞬間IS編碼品質指標及/或基於用於通道之該延伸群組(122)之一瞬間DS編碼品質指標來定期地適應該IS資料率和該DS資料率,使得該IS資料率和該DS資料率的總和實質上相當於該總可用資料率。
  2. 如申請專利範圍第1項所述之編碼器,其中該速率控制單元(501)係配置以決定該IS資料率和該DS資料率,使得降低該瞬間IS編碼品質指標與該瞬間DS編碼品質指標間之差值。
  3. 如申請專利範圍第2項所述之編碼器,其中該基本編碼器(105)和該延伸編碼器(106)係配置以編碼該多通道音頻信號之一串訊框的訊框為基音頻編碼器,藉此分別產生該獨立子流(110)和該依賴子流(120)之IS訊框(151)和DS訊框(152)的對應序列。
  4. 如申請專利範圍第3項所述之編碼器,其中該速率控制單元(501)係配置以適應用於該多通道音頻信號之該串訊框之每個訊框的該IS資料率和該DS資料率。
  5. 如申請專利範圍第4項所述之編碼器,其中:該IS編碼品質指標包含用於IS訊框(151)的對應序列之一串IS編碼品質指標;該DS編碼品質指標包含用於DS訊框(152)的對應序列之一串DS編碼品質指標;該速率控制單元(501)係配置以基於該串IS編碼品質指標及該串DS編碼品質指標來決定用於該串該IS訊框(151)之一IS訊框(151)的該IS資料率和用於該串該DS訊框(152)之一DS訊框的該DS資料率,使得用於該IS訊框(151)之該IS資料率和用於該DS訊框之該DS資料率的總和實質上相當於該總可用資料率。
  6. 如申請專利範圍第5項所述之編碼器,更包含:一編碼困難度決定單元(551),配置以基於通道之該基本群組(121)之一第一訊框來決定該IS編碼品質指標及/或基於通道之該延伸群組(122)之一對應第一訊框來決定該DS編碼品質指標。
  7. 如申請專利範圍第6項所述之編碼器,其中:該IS編碼品質指標係該基本群組(121)之該第一訊框的一感知熵、該基本群組(121)之該第一訊框的一音調、該基本群組(121)之該第一訊框的一光譜頻寬、在該基本群組(121)之該第一訊框中之暫態的存在、該基本群組(121)之通道之間相關性的程度、及該基本群組(121)之該第一訊框的能量之一或更多者;及該DS編碼品質指標係該延伸群組(122)之該第一訊框的一感知熵、該延伸群組(122)之該第一訊框的一音調、該延伸群組(122)之該第一訊框的一光譜頻寬、在該延伸群組(122)之該第一訊框中之暫態的存在、該延伸群組(122)之通道之間相關性的程度、及該延伸群組(122)之該第一訊框的能量之一或更多者。
  8. 如申請專利範圍第5項所述之編碼器,其中:該基本編碼器(105)包含一轉換單元(302),配置以從該基本群組(121)之一第一訊框決定轉換係數(402)的一基本區塊;該延伸編碼器(106)包含一轉換單元(302),配置以從該延伸群組(122)之一對應第一訊框決定轉換係數(402)的一延伸區塊;該基本編碼器(105)包含一浮點數編碼單元(304),配置以從轉換係數(402)的該基本區塊決定指數的基本區塊和尾數的基本區塊;該延伸編碼器(106)包含一浮點數編碼單元 (304),配置以從轉換係數(402)的該延伸區塊決定指數的延伸區塊和尾數的延伸區塊;該速率控制單元(501)係配置以:基於該總可用資料率決定用於編碼尾數之基本區塊和尾數之延伸區塊的可用尾數位元的總數量;及基於該瞬間IS編碼品質指標及該瞬間DS編碼品質指標來分配可用尾數位元的該總數量給尾數之基本區塊和尾數之延伸區塊,藉此適應該IS資料率和該DS資料率。
  9. 如申請專利範圍第8項所述之編碼器,其中該速率控制單元(501)係配置以:決定用於轉換係數(402)的該基本區塊之一基本功率譜密度(稱為PSD)分佈(410);決定用於轉換係數(402)的該延伸區塊之一延伸PSD分佈(410);決定用於轉換係數(402)的該基本區塊之一基本遮罩曲線(441);決定用於轉換係數(402)的該延伸區塊之一延伸遮罩曲線(441);及基於該基本PSD分佈(410)、該延伸PSD分佈(410)、該基本遮罩曲線(441)、及該延伸遮罩曲線(441)來分配可用尾數位元的該總數量給尾數之基本區塊和尾數之延伸區塊分配可用尾數位元的該總數量給尾數之基本區塊和尾數之延伸區塊。
  10. 如申請專利範圍第9項所述之編碼器,其中該速 率控制單元(501)係配置以:藉由使用一IS偏移量來偏移該基本遮罩曲線(441)來決定一偏移基本遮罩曲線(441);基於比較該基本PSD分佈(410)與該偏移基本遮罩曲線(441)來分配尾數位元之一基本數量給尾數的該基本區塊;藉由使用一DS偏移量來偏移該延伸遮罩曲線(441)來決定一偏移延伸遮罩曲線(441);基於比較該延伸PSD分佈(410)與該偏移延伸遮罩曲線(441)來分配尾數位元之一延伸數量給尾數的該延伸區塊;決定所分配之尾數位元之總數量作為尾數位元之該基本數量和尾數位元之該延伸數量的總和;及調整該IS偏移量及該DS偏移量,使得所分配之尾數位元之總數量與可用尾數位元之總數量之差值係在一預定位元臨界值之下。
  11. 如申請專利範圍第10項所述之編碼器,其中:該瞬間IS編碼品質指標包含IS偏移量;及該瞬間DS編碼品質指標包含DS偏移量。
  12. 如申請專利範圍第11項所述之編碼器,其中該速率控制單元(501)係配置以:調整該IS偏移量及該DS偏移量,使得該IS偏移量及該DS偏移量對該多通道音頻信號之該串訊框是相等的,藉此適應用於該多通道音頻信號之該串訊框之每個訊 框的該IS資料率和該DS資料率。
  13. 如申請專利範圍第10項所述之編碼器,其中該速率控制單元(501)係配置以:決定用於該多通道音頻信號之該第一訊框的該IS偏移量及該DS偏移量;基於用於該第一訊框的該IS偏移量及該DS偏移量來調整用於編碼該多通道音頻信號之一第二訊框的該IS資料率及該DS資料率。
  14. 如申請專利範圍第13項所述之編碼器,其中該速率控制單元(501)係配置以:調整用於編碼該多通道音頻信號之該第二訊框的該IS資料率及該DS資料率,使得降低該IS偏移量及該DS偏移量間之差值。
  15. 如申請專利範圍第14項所述之編碼器,其中該速率控制單元(501)係配置以:決定用於該第一訊框的該IS偏移量及該DS偏移量間之差值;以一速率偏移量來改變相較於用於該第一訊框之該IS資料率的用於該第二訊框之該IS資料率,並以負的該速率偏移量來改變相較於用於該第一訊框之該DS資料率的用於該第二訊框之該DS資料率;其中該速率偏移量取決於所決定之差值。
  16. 如申請專利範圍第15項所述之編碼器,其中:該多通道音頻信號係一7.1音頻信號,包含中、左、 右、左環繞、右環繞、左後環繞、右後環繞通道和一低頻音效通道;通道之該基本群組(121)包含中、左和右通道、以及一降混左環繞通道和一降混右環繞通道;該降混左環繞通道和該降混右環繞通道係源於該左環繞、右環繞、左後環繞、右後環繞通道;通道之該延伸群組(122)包含該左環繞、右環繞、左後、及右後通道;該基本通道配置係一5.1通道配置;及該延伸通道配置係一7.1通道配置。
  17. 一種產生已編碼之音頻資料的方法,包括以下步驟:(a)根據一IS資料率來編碼通道的一基本群組(121),藉此產生一獨立子流(110);(b)根據一DS資料率來編碼通道的一延伸群組(122),藉此產生一依賴子流(120);及(c)基於用於通道之該基本群組(121)之一瞬間IS編碼品質指標及/或基於用於通道之該延伸群組(122)之一瞬間DS編碼品質指標來定期地適應該IS資料率和該DS資料率,使得該IS資料率和該DS資料率的總和實質上相當於一總可用資料率。
  18. 如申請專利範圍第17項所述之方法,更包含:基於通道之該基本群組(121)之一或更多訊框來決定該瞬間IS編碼品質指標、及/或基於通道之該延伸群組 (122)之對應一或更多訊框來決定該瞬間DS編碼品質指標來產生該已編碼之音頻資料。
  19. 如申請專利範圍第18項所述之方法,其中該瞬間IS編碼品質指標係該獨立子流之一或更多訊框之感知品質的指示;且該瞬間DS編碼品質指標係該依賴子流之一或更多訊框之感知品質的指示。
  20. 一種音頻解碼器,配置以符合申請專利範圍第17項之方法地解碼音頻資料。
TW102114404A 2012-05-15 2013-04-23 具多重子流之多通道音頻信號的有效編碼與解碼 TWI505262B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201261647226P 2012-05-15 2012-05-15

Publications (2)

Publication Number Publication Date
TW201405548A TW201405548A (zh) 2014-02-01
TWI505262B true TWI505262B (zh) 2015-10-21

Family

ID=48576522

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102114404A TWI505262B (zh) 2012-05-15 2013-04-23 具多重子流之多通道音頻信號的有效編碼與解碼

Country Status (9)

Country Link
US (1) US9779738B2 (zh)
EP (1) EP2850613B1 (zh)
JP (1) JP6133408B2 (zh)
CN (1) CN104285253B (zh)
AR (1) AR091042A1 (zh)
ES (1) ES2641390T3 (zh)
HK (1) HK1201371A1 (zh)
TW (1) TWI505262B (zh)
WO (1) WO2013173314A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101726205B1 (ko) 2012-11-07 2017-04-12 돌비 인터네셔널 에이비 감소된 복잡성 변환기 snr 계산
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
JP6392353B2 (ja) 2013-09-12 2018-09-19 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
CN105981411B (zh) * 2013-11-27 2018-11-30 Dts(英属维尔京群岛)有限公司 用于高声道计数的多声道音频的基于多元组的矩阵混合
CN104065977B (zh) * 2014-06-06 2018-05-15 北京音之邦文化科技有限公司 音/视频文件的处理方法及装置
CN110164483B (zh) * 2014-10-03 2021-03-02 杜比国际公司 渲染音频节目的方法和系统
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
AU2016335091B2 (en) * 2015-10-08 2021-08-19 Dolby International Ab Layered coding and data structure for compressed higher-order Ambisonics sound or sound field representations
US10812550B1 (en) * 2016-08-03 2020-10-20 Amazon Technologies, Inc. Bitrate allocation for a multichannel media stream
MX2020002972A (es) * 2017-09-20 2020-07-22 Voiceage Corp Metodo y dispositivo para asignar un presupuesto de bits entre subtramas en un codec celp.
SG11202007629UA (en) * 2018-07-02 2020-09-29 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding immersive audio signals
US10666291B1 (en) * 2019-03-12 2020-05-26 Microsoft Technology Licensing, Llc High efficiency data decoder
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978762A (en) * 1995-12-01 1999-11-02 Digital Theater Systems, Inc. Digitally encoded machine readable storage media using adaptive bit allocation in frequency, time and over multiple channels
WO2001087015A2 (en) * 2000-05-10 2001-11-15 Digital Theater Systems, Inc. Discrete multichannel audio with a backward compatible mix
TW200737125A (en) * 2006-02-23 2007-10-01 Lg Electronics Inc Method and apparatus for processing a audio signal

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2637090B2 (ja) * 1987-01-26 1997-08-06 株式会社日立製作所 音響信号処理回路
JPH0758707A (ja) * 1993-08-20 1995-03-03 Fujitsu Ltd 量子化ビット割当方式
JPH08123488A (ja) * 1994-10-24 1996-05-17 Sony Corp 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法
US6044396A (en) 1995-12-14 2000-03-28 Time Warner Cable, A Division Of Time Warner Entertainment Company, L.P. Method and apparatus for utilizing the available bit rate in a constrained variable bit rate channel
KR19990042668A (ko) 1997-11-27 1999-06-15 정선종 다중 비디오 전송을 위한 비디오 부호화 장치 및 방법
US6859496B1 (en) 1998-05-29 2005-02-22 International Business Machines Corporation Adaptively encoding multiple streams of video data in parallel for multiplexing onto a constant bit rate channel
US6931372B1 (en) 1999-01-27 2005-08-16 Agere Systems Inc. Joint multiple program coding for digital audio broadcasting and other applications
JP4610087B2 (ja) 1999-04-07 2011-01-12 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 損失のない符号化・復号へのマトリックス改良
US6493388B1 (en) 2000-04-19 2002-12-10 General Instrument Corporation Rate control and buffer protection for variable bit rate video programs over a constant rate channel
DE10102159C2 (de) 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
AU2003216686A1 (en) 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
JP2005294977A (ja) 2004-03-31 2005-10-20 Ulead Systems Inc スライドウィンドウ(slidingwindow)を用いた2パスビデオエンコーディング方法とシステム
US7818444B2 (en) 2004-04-30 2010-10-19 Move Networks, Inc. Apparatus, system, and method for multi-bitrate content streaming
KR100773539B1 (ko) 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
KR100682915B1 (ko) 2005-01-13 2007-02-15 삼성전자주식회사 다채널 신호 부호화/복호화 방법 및 장치
US7734053B2 (en) 2005-12-06 2010-06-08 Fujitsu Limited Encoding apparatus, encoding method, and computer product
US8887218B2 (en) 2007-11-29 2014-11-11 Jan Maurits Nicolaas Fielibert Systems and methods of adjusting bandwidth among multiple media streams
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
IT1398196B1 (it) 2009-06-25 2013-02-14 St Microelectronics Srl Controllore dinamico della velocita' di trasmissione indipendente dal gruppo di immagini
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
US8588294B2 (en) 2010-01-15 2013-11-19 General Instrument Corporation Statistical multiplexing using a plurality of two-pass encoders

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978762A (en) * 1995-12-01 1999-11-02 Digital Theater Systems, Inc. Digitally encoded machine readable storage media using adaptive bit allocation in frequency, time and over multiple channels
WO2001087015A2 (en) * 2000-05-10 2001-11-15 Digital Theater Systems, Inc. Discrete multichannel audio with a backward compatible mix
TW200737125A (en) * 2006-02-23 2007-10-01 Lg Electronics Inc Method and apparatus for processing a audio signal

Also Published As

Publication number Publication date
JP2015520872A (ja) 2015-07-23
US20150131800A1 (en) 2015-05-14
EP2850613B1 (en) 2017-08-16
EP2850613A1 (en) 2015-03-25
CN104285253B (zh) 2017-05-17
AR091042A1 (es) 2014-12-30
WO2013173314A1 (en) 2013-11-21
US9779738B2 (en) 2017-10-03
TW201405548A (zh) 2014-02-01
HK1201371A1 (zh) 2015-08-28
JP6133408B2 (ja) 2017-05-24
ES2641390T3 (es) 2017-11-08
CN104285253A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
TWI505262B (zh) 具多重子流之多通道音頻信號的有效編碼與解碼
US9741354B2 (en) Bitstream syntax for multi-process audio decoding
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
CN105556596B (zh) 使用基于残差信号调整解相关信号贡献的多声道音频解码器、多声道音频编码器、方法和数据载体
CN111489758B (zh) 解码装置、解码方法及存储介质
JP6474845B2 (ja) 軽減された計算量の変換器snr計算
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
US7937272B2 (en) Scalable encoding/decoding of audio signals
US9280976B2 (en) Audio signal encoder
US20110311063A1 (en) Embedding and extracting ancillary data
KR102380642B1 (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치