TW201523587A

TW201523587A - 音訊解碼器、用以產生編碼音訊輸出資料之裝置以及允許將解碼器初始化之方法

Info

Publication number: TW201523587A
Application number: TW103136008A
Authority: TW
Inventors: Daniel Fischer; Bernd Czelhan; Max Neuendorf; Nikolaus Rettelbach; Ingo Hofmann; Harald Fuchs; Stefan Doehla; Nikolaus Faerber
Original assignee: Fraunhofer Ges Forschung
Priority date: 2013-10-18
Filing date: 2014-10-17
Publication date: 2015-06-16
Also published as: US9928845B2; US20240203433A1; PT3044782T; ES2644370T3; CN105745704B; MX2016004845A; US20160232910A1; TWI579832B; US11670314B2; JP2016539357A; BR112016008415A2; US10614824B2; MY177213A; CN105745704A; BR112016008415B1; AR098075A1; RU2016118985A; US20180197556A1; WO2015055683A1; KR20160060686A

Abstract

一種音訊解碼器對經編碼音訊資料之一位元串流進行解碼，其中經編碼音訊資料之該位元串流表示一序列音訊樣本值，且包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值。該音訊解碼器包含一判定器，該判定器經組配以判定該經編碼音訊資料之一訊框是否為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，其中若該特殊訊框為啟動該解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置。該解碼器包含一初始化器，該初始化器經組配以將該解碼器初始化，其中將該解碼器初始化包含對包括在該額外資訊中之該等經編碼音訊樣本值進行解碼，隨後對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼。

Description

音訊解碼器、用以產生編碼音訊輸出資料之裝置以及允許將解碼器初始化之方法

發明領域

本發明係有關於音訊編碼/解碼，且詳言之，係有關於一種對資料進行編碼及解碼之方法，其允許在於不同編解碼器組態之間切換時將一解碼器初始化(諸如，該初始化可為需要的)。

發明背景

本發明之實施例可應用於傳輸頻道之性質可取決於諸如DSL、WiFi、3G、LTE及其類似者之存取技術而廣泛變化的情形。行動電話接收在室內或在郊區可能衰減。無線網際網路連接之品質在很大程度上取決於距基地台之距離及存取技術，從而導致位元率之波動。每使用者之可用位元率亦可能隨著連接至一個基地台的用戶端之數目而變化。

發明概要

本發明之目標為提供一種允許以靈活方式遞送音訊內容之概念。

根據本發明，藉由根據技術方案1之音訊解碼器、根據技術方案9之用於產生經編碼音訊輸出資料之裝置、根據技術方案18之用於對音訊輸入資料進行解碼之方法、根據技術方案22之用於產生經編碼音訊資料之方法以及根據技術方案25之電腦程式達成此目標。

本發明之實施例提供一種用於對經編碼音訊資料之一位元串流進行解碼的音訊解碼器，其中經編碼音訊資料之該位元串流表示一序列音訊樣本值，且包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，該音訊解碼器包含：一判定器，其經組配以判定該經編碼音訊資料之一訊框是否為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，其中若該特殊訊框為啟動該解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及一初始化器，其經組配以在該判定器判定該訊框為一特殊訊框的情況下將該解碼器初始化，其中將該解碼器初始化包含對包括在該額外資訊中之該等經編碼音訊樣本值進行解碼，隨後對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼。

本發明之實施例提供一種用於產生表示一音訊信號之一序列音訊樣本值的經編碼音訊資料之一位元串流的裝置，其中經編碼音訊資料之該位元串流包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，其中該裝置包含：一特殊訊框提供器，其經組配以將該等訊框中之至少一者提供為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，且其中若該特殊訊框為啟動一解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及一輸出端，其經組配以輸出經編碼音訊資料之該位元串流。

本發明之實施例提供一種用於對經編碼音訊資料之一位元串流進行解碼的方法，其中經編碼音訊資料之該位元串流表示一序列音訊樣本值，且包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，該方法包含：判定該經編碼音訊資料之一訊框是否為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，其中若該特殊訊框為啟動一解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及在判定該訊框為一特殊訊框的情況下將該解碼器初始化，其中將該初始化包含對包括在該額外資訊中之該等經編碼音訊樣本值進行解碼，隨後對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼。

本發明之實施例提供一種用於產生表示一音訊信號之一序列音訊樣本值的經編碼音訊資料之一位元串流的方法，其中經編碼音訊資料之該位元串流包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，該方法包含：將該等訊框中之至少一者提供為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，且其中若該特殊訊框為啟動一解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及藉由串接該特殊訊框與該等多個訊框中之其他訊框而產生該位元串流。

本發明之實施例係基於以下發現：表示一音訊信號之一序列音訊樣本值且包含多個訊框的經編碼音訊資料之一位元串流之即時重播可在以下情況下達成：該等訊框中之一者被提供為包括與先前訊框相關聯之經編碼音訊樣本值的一特殊訊框，該等先前訊框對於起始一解碼器使其處於對與該特殊訊框相關聯之經編碼音訊樣本值進行解碼之位置係必需的。起始解碼器所必需之訊框的數目因此取決於所使用之編解碼器組態，且對於該等編解碼器組態係已知的。本發明之實施例係基於以下發現：若此類特殊訊框配置於在寫碼組態之間的切換將發生之位置處，則可以有益方式達成在不同編解碼器組態之間的切換。該特殊訊框不僅可包括與該特殊訊框相關聯之經編碼音訊樣本值，而且包括准許在編解碼器組態之間的切換以及切換後的即時重播之其他資訊。在本發明之實施例中，用於產生經編碼音訊輸出資料之裝置及方法以及音訊編碼器經組配而以如下方式準備經編碼音訊資料：在編解碼器組態之間的切換後的即時回復可在解碼器側發生。在本發明之實施例中，在編碼器側產生且輸出之此類音訊資料在解碼器側接收為音訊輸入資料，且允許在解碼器側處之即時重播。在本發明之實施例中，在解碼器側處在不同編解碼器組態之間切換後，允許在解碼器側處之即時重播。

在本發明之實施例中，若該判定器判定該訊框為一特殊訊框且若該特殊訊框之該等音訊樣本值已使用一不同編解碼器組態予以編碼，則該初始化器經組配以將該音訊解碼器自一當前編解碼器組態切換至該不同編解碼器組態。

在本發明之實施例中，若該判定器判定該訊框為一特殊訊框且若該特殊訊框之該等音訊樣本值已使用當前寫碼組態予以編碼，則該解碼器經組配以使用該當前編解碼器組態對該特殊訊框進行解碼且捨棄該額外資訊。

在本發明之實施例中，該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊，其中該判定器經組配以判定該額外資訊之該編解碼器組態是否不同於該當前編解碼器組態。

在本發明之實施例中，該音訊解碼器包含一交叉衰減器，該交叉衰減器經組配以在使用該當前編解碼器組態獲得之多個輸出樣本值與藉由對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼而獲得之多個輸出樣本值之間執行交叉衰減。在本發明之實施例中，該交叉衰減器經組配以對藉由清空處於該當前編解碼器組態中之該解碼器而獲得的輸出樣本值與藉由對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼而獲得的輸出樣本值執行交叉衰減。

在本發明之實施例中，包含在該額外資訊中的該等數個訊框中之一最早訊框並未相對於在該最早訊框之前的任何訊框以時間差分方式進行編碼或熵編碼，且其中該特殊訊框並未相對於在處於該特殊訊框之前的該等數個訊框中之該最早訊框之前的任何訊框或相對於在該特殊訊框之前的任何訊框以時間差分方式進行編碼或熵編碼。

在本發明之實施例中，該特殊訊框將該額外資訊包含為一擴展酬載，且其中該判定器經組配以評估該特殊訊框之該擴展酬載。在本發明之實施例中，該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊。

在本發明之實施例中，該經編碼音訊資料包含多個片段，其中每一片段與該序列音訊樣本值之多個部分中之一者相關聯且包含多個訊框，其中特殊訊框添加器經組配以將一特殊訊框添加在每一片段之開始處。

在本發明之實施例中，該經編碼音訊資料包含多個片段，其中每一片段與該序列音訊樣本值之多個部分相關聯且包含多個該等訊框，其中用於產生經編碼音訊資料之一位元串流的該裝置包含：一片段提供器，其經組配以提供與該序列音訊樣本值之不同部分相關聯且藉由不同編解碼器組態予以編碼的片段，其中該特殊訊框提供器經組配以將該等片段中之至少一者的一第一訊框提供為該特殊訊框；以及一產生器，其經組配以藉由將該等片段中之該至少一者配置在該等片段中的另一者之後而產生該音訊輸出資料。在本發明之實施例中，該片段提供器經組配以基於一控制信號選擇用於每一片段之一編解碼器組態。在本發明之實施例中，該片段提供器經組配以提供該序列音訊樣本值之m個經編碼版本，其中m2，其中該等m個經編碼版本係使用不同編解碼器組態予以編碼，其中每一經編碼版本包含表示該序列音訊樣本值之該等多個部分的多個片段，其中該特殊訊框提供器經組配以將一特殊訊框提供於該等片段中之每一者的開始處。

在本發明之實施例中，該片段提供器包含多個編碼器，每一編碼器經組配以根據該等多個不同編解碼器組態中之一者至少部分地對該音訊信號進行編碼。在本發明之實施例中，該片段提供器包含一記憶體，該記憶體儲存該序列音訊樣本值之該等m個經編碼版本。

在本發明之實施例中，該額外資訊係呈該特殊訊框之一擴展酬載之形式。

在本發明之實施例中，該解碼方法包含若判定該訊框為一特殊訊框且若該特殊訊框之該等音訊樣本值已使用一不同編解碼器組態予以編碼，則將該音訊解碼器自一當前編解碼器組態切換至該不同編解碼器組態。

在本發明之實施例中，經編碼音訊資料之該位元串流包含使用一第一編解碼器組態編碼之第一數目個訊框及在該等第一數目個訊框之後且使用一第二編解碼器組態編碼之第二數目個訊框，其中該等第二數目個訊框中之第一訊框為該特殊訊框。

在本發明之實施例中，該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊，且該方法包含判定該額外資訊之該編解碼器組態是否不同於用於對該位元串流中先於該特殊訊框之訊框之經編碼音訊樣本值進行編碼的該當前編解碼器組態。

在本發明之實施例中，產生經編碼音訊資料之一位元串流的該方法包含提供與該序列音訊樣本值之不同部分相關聯且藉由不同編解碼器組態予以編碼之片段，其中該等片段中之至少一者之一第一訊框被提供為該特殊訊框。

因此，在本發明之實施例中，執行交叉衰減以便允許在不同編解碼器組態之間的無縫切換。在本發明之實施例中，該特殊訊框之該額外資訊包含對於將一解碼器初始化為處於對該特殊訊框進行解碼之一位置所必需的預載訊框(pre-roll frame)。換言之，在本發明之實施例中，該額外資訊包含在該特殊訊框之前且使用與由該特殊訊框表示之該等經編碼音訊樣本值相同的編解碼器組態予以編碼的經編碼音訊樣本值之該等訊框之一複本，該特殊訊框對於將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之位置所必需的。

在本發明之實施例中，特殊訊框係以規則時間間隔(亦即，以一週期性方式)引入至經編碼音訊資料中。在本發明之實施例中，經編碼音訊資料之每一片段的一第一訊框為一特殊訊框。在實施例中，該音訊解碼器經組配以使用在該特殊訊框中指示之編解碼器組態對該特殊訊框及隨後訊框進行解碼，直至碰到指示一不同編解碼器組態之另一特殊訊框。

在本發明之實施例中，該解碼器及該解碼方法經組配以在自一個編解碼器組態切換至另一編解碼器組態時執行一交叉衰減，以便允許在多個經壓縮音訊表示之間的無縫切換。

在本發明之實施例中，該等不同編解碼器組態係根據AAC(進階音訊寫碼)標準之不同編解碼器組態，亦即，AAC系列編解碼器之不同編解碼器組態。本發明之實施例可針對在AAC系列編解碼器之編解碼器組態與AMR(自適應多速率)系列編解碼器之編解碼器組態之間切換。

因此，本發明之實施例允許在解碼器側之即時重播及在不同編解碼器組態之間的切換，使得遞送音訊內容之方式可適於多種環境條件，諸如具有可變位元率之傳輸頻道。因此，對於一給定網路條件，本發明之實施例允許向消費者提供最佳的可能音訊品質。

10‧‧‧音訊輸入信號

12、14、16、18‧‧‧音訊編碼器

22、24、26、28‧‧‧音訊輸入信號之不同表示

30‧‧‧第一表示之第二片段

40‧‧‧第一表示之第八訊框

42‧‧‧串流存取點/特殊訊框/第一訊框

44、46、48‧‧‧所選擇片段

50‧‧‧決策引擎/決策單元

52‧‧‧產生器/區塊

54‧‧‧經編碼音訊輸出資料

60‧‧‧音訊解碼器

62‧‧‧音訊輸出信號

80‧‧‧IPF/特殊訊框/第一訊框

82‧‧‧額外資訊

84‧‧‧編解碼器組態/關於編解碼器組態之資訊

86‧‧‧訊框

90‧‧‧用於產生經編碼音訊輸出資料之裝置

92‧‧‧提供器

100‧‧‧用於產生經編碼音訊輸出資料之裝置/片段提供器/特殊訊框提供器

102‧‧‧經編碼音訊輸出資料

104‧‧‧片段提供器

106、108‧‧‧片段

110‧‧‧產生器

112‧‧‧輸出端

122‧‧‧音訊輸入資料

130‧‧‧判定器

132‧‧‧初始化器

134‧‧‧解碼器核心

136‧‧‧箭頭

200‧‧‧第一狀態

202‧‧‧「清空」狀態

300~306、310~314、320~

322、330~344‧‧‧步驟

308‧‧‧區塊/PCM輸出樣本緩衝器/輸出PCM緩衝器

316‧‧‧清空緩衝器/PCM緩衝器

318‧‧‧交叉衰減程序/交叉衰減器

324‧‧‧IPF緩衝器/PCM緩衝器

400‧‧‧片段邊界

402‧‧‧清空程序

隨後參看附圖論述本發明之實施例，在附圖中：圖1展示用於產生經編碼音訊輸出資料之裝置之一實施例的示意圖；圖2展示用於解釋特殊訊框之一實施例的示意圖；圖3展示音訊信號之不同表示的示意圖；圖4a及圖4b展示用於產生經編碼音訊輸出資料之裝置的示意圖；圖5展示音訊解碼器之示意圖；圖6展示用於解釋音訊解碼器及解碼方法之實施例的示意性方塊圖；圖7展示用於解釋音訊解碼器在不同編解碼器組態之間的切換之示意性方塊圖；圖8展示用於解釋AAC(進階音訊寫碼)解碼器行為之示意圖；圖9展示自第一串流1至第二串流2之切換；以及圖10展示提供額外資訊之例示性語法元素。

較佳實施例之詳細說明

大體而言，本發明之實施例係針對經由具有可變位元率之傳輸頻道遞送音訊內容，可能與視訊遞送相組合。目標可為對於給定網路條件，向消費者提供最佳的可能音訊品質。本發明之實施例集中於在自適應串流環境中實施AAC系列編解碼器。

在本發明之實施例中，如本文中所使用，未經編碼之音訊樣本值表示時域音訊樣本值，諸如PCM(脈碼調變)樣本。在本發明之實施例中，術語經編碼音訊樣本值係指在對時域音訊樣本值進行編碼之後獲得的頻域樣本值。在本發明之實施例中，經編碼音訊樣本值或樣本係藉由將時域樣本轉換為頻譜表示(諸如，藉助於MDCT(修改型離散餘弦轉換))並對結果進行編碼(諸如，藉由量化及霍夫曼寫碼) 而獲得之值或樣本。因此，在本發明之實施例中，編碼意謂自時域樣本獲得頻域樣本，且解碼意謂自頻域樣本獲得時域樣本。藉由對經編碼音訊資料進行解碼而獲得之樣本值(樣本)在本文中有時稱作輸出樣本值(樣本)。

圖1展示用於產生經編碼音訊輸出資料之裝置的實施例。圖1展示本發明之實施例可應用於之自適應音訊串流傳輸之典型情形。音訊輸入信號10由各個音訊編碼器12、14、16及18(亦即，編碼器1至m)予以編碼。編碼器1至m可經組配以同時對音訊輸入信號10進行編碼。通常，編碼器1至m可經組配而使得可達成寬位元率範圍。編碼器產生音訊輸入信號10之不同表示(亦即，經寫碼版本)22、24、26及28，亦即，表示1至m。每一表示包括多個片段1至k，其中第一表示之第二片段已僅僅出於例示性目的而給予參考數字30。每一片段包含由字母AU標示的多個訊框(存取單元)及指示訊框在各別表示中的位置之各別索引1至n。第一表示之第八訊框僅僅出於例示性目的而給予參考數字40。

編碼器12、14、16及18經組配而以規則時間間隔 (其界定片段之大小)插入串流存取點(SAP)42。因此，諸如片段30之片段由多個訊框(諸如，AU₅、AU₆、AU₇及AU₈)組成，其中第一訊框AU₅表示SAP 42。在圖1中，SAP由影線指示。每一表示1至m表示音訊輸入信號10之經壓縮音訊表示(CAR)，且由k個此類片段構成。不同CAR之間的切換可在片段邊界處發生。

在解碼器側上，用戶端可請求該等表示中最佳地適合給定情境(例如，給定網路條件)之一個表示。若出於某種原因，該等條件改變，則用戶端應能夠請求不同CAR，用於產生經編碼輸出資料之裝置應能夠在每一片段邊界處在不同CAR之間切換，且解碼器應能夠在每一片段邊界處切換至對不同CAR進行解碼。因此，用戶端將處於使媒體位元率適合可用頻道位元率以便使品質最大化同時使運作中之緩衝器(「再緩衝」)最小化之位置。若使用HTTP(超文字傳送協定)來下載片段，則此類串流傳輸架構可被稱作HTTP自適應串流傳輸。

當前實施包括Apple HTTP實況串流傳輸(HTTP Live Streaming，HLS)、Microsoft平滑串流傳輸(Smooth Streaming)，及Adobe動態串流傳輸，其全部遵循基本原理。最近，MPEG發佈一開放式標準：HTTP動態自適應串流傳輸(MPEG DASH)，參見「Guidelines for Implementation：DASH-AVC/264 Interoperability Points」，http：//dashif.org/w/2013/08/DASH-AVC-264-v2.00-hd-mca.pdf。HTTP通常使用TCP/IP(傳輸控制協定/網際網路協定)作為基礎網路協定。本發明之實施例可應用於所有彼等當前發展標準。

在各表示(經編碼版本)之間的切換將儘可能為無縫的。換言之，在切換期間不應存在任何可聽到的短時脈衝波形干擾或咔嗒聲。在無本發明之實施例所提供之進一步措施的情況下，此要求可能僅在某些約束下且在編碼程序期間特別謹慎的情況下才能達成。

在圖1中，片段所源自之各別編碼器由置於圓圈內之各別標記指示。圖1進一步展示決策引擎50，其決定對於每一片段下載哪一表示。產生器52藉由串接在圖1中給予參考數字44、46及48之所選擇片段而自該等所選擇片段產生經編碼音訊輸出資料54。經編碼音訊輸出資料54可遞送至解碼器60，解碼器經組配以將經編碼音訊輸出資料解碼成包含音訊輸出樣本之音訊輸出信號62。

在圖1中所示之實施例中，源自不同編碼器之片段且因此訊框(例如，圖1之實例中的來自編碼器2之AU₄及來自編碼器3之AU₅)係饋送至相同解碼器60中。在相同解碼器例項用以對彼等AU進行解碼之情況下，兩個編碼器必須彼此相容。詳言之，在無任何額外措施之情況下，若兩個編碼器係來自完全不同的編解碼器系列(如用於編碼器2的AMR及用於編碼器3的G.711)，則此方法無法起作用。然而，即使在跨越所有表示使用相同編解碼器時，亦必須特別謹慎以約束編碼程序。此係因為諸如進階音訊寫碼(AAC)之現代音訊編解碼器係靈活的演算法，其可使用各種寫碼工具及模式在若干組態中操作。用於AAC中的此類寫碼工具之實例係頻譜帶複製(SBR)或短區塊(SB)。其他重要組態參數係取樣頻率(f_s，例如48kHz)或頻道組態(單聲道、立體聲、環繞聲)。為了正確地對訊框(AU)進行解碼，解碼器必須知曉使用了哪些工具以及彼等工具之組配方式(例如，f_s或SBR交越頻率)。因此，大體而言，所需資訊編碼於短組態字串中，且使得在解碼之前可用於解碼器。此等組態參數可被稱作編解碼器組態。在AAC之情況下，此組態被稱為音訊特定組態(ASC)。

迄今為止，為了達成無縫切換，必須將編解碼器組態約束為跨越表示(經編碼版本)為相容的。舉例而言，取樣頻率或寫碼工具通常必須跨越所有表示為相同的。若在表示之間使用不相容的編解碼器組態，則解碼器必須重新組配。此基本上意謂必須關閉舊解碼器且必須開啟具有新組態的新解碼器。然而，此重新組配程序並非在所有情況下皆係無縫的，且可能引起短時脈衝波形干擾。此情況的一個原因為，新解碼器無法立即產生有效樣本，而需要若干預載AU來建置完整信號強度。此啟動行為對於具有解碼器狀態(亦即，在當前AU之解碼與先前AU之解碼不完全獨立的情況下)的編解碼器係典型的。

作為此行為之結果，通常需要編解碼器組態跨越所有表示為恆定的，且唯一改變的參數為位元率。此為(例如)如由DASH工業論壇定義之DASH-AVC/264設定檔之情況。

此約束確實限制編解碼器之靈活性，且因此限制跨越全部位元率範圍的寫碼效率。舉例而言，SBR對於極低位元率為有價值的寫碼工具，但限制較高位元率下的音訊品質。因此，若需要經寫碼組態為恆定的(亦即，具有或不具有SBR)，則必須在高或低位元率下綜合考慮。類似地，寫碼效率可得益於跨越表示改變取樣速率，但由於為實現無縫切換之上述約束而必須保持恆定。

本發明的實施例係針對一種新穎方法，其實現自適應串流傳輸環境中之無縫音訊切換，且詳言之，實現AAC系列音訊編解碼器在自適應串流傳輸環境中之無縫音訊切換。本發明之方法經設計以解決由如上文所描述對編解碼器組態之約束而引起的所有缺點。總體目標係在跨越表示(經編碼版本)之組態(諸如，寫碼工具或取樣頻率)中具有更多靈活性，同時仍實現或保證無縫的切換。

本發明之實施例係基於以下發現：藉由在諸如經壓縮音訊表示(CAR)之經編碼音訊資料之其他訊框之間添加除與特殊訊框相關聯之經編碼音訊樣本值之外亦攜載額外資訊之特殊訊框，可克服上文解釋之約束且可達成較高靈活性。經壓縮音訊表示可被視為藉由具有恆定總體位元率之有損或無損音訊編碼器(例如，AAC系列音訊編碼器(AAC、HE-AAC、MPEG-D USAC、...))壓縮之後的一段音訊材料(音樂、話音、...)。詳言之，特殊訊框中之額外資訊經設計以允許在解碼器側處之瞬時播出，即使在於不同編解碼器組態之間進行切換之情況下亦如此。因此，特殊訊框可被稱作瞬時播出訊框(IPF)。IPF經組配以補償解碼器啟動延遲，且用以傳輸前述訊框上之音訊資訊連同當前訊框之資料。

此IPF 80之實例展示於圖2中。圖2展示編號為n-4 至n+3之數個訊框(存取單元)40。每一訊框包括相關聯之經編碼音訊樣本值，亦即，表示音訊信號(諸如，音訊輸入信號10)之一序列時域音訊樣本值中之特定數目個時域音訊樣本值的經編碼音訊樣本值。舉例而言，每一訊框可包含表示1024個時域音訊樣本值(亦即，未經編碼音訊信號之音訊樣本值)之經編碼音訊樣本值。在圖2中，配置在先前訊框n-1與隨後訊框n+1之間的訊框n表示特殊訊框或IPF 80。特殊訊框80包括額外資訊82。額外資訊82包括關於編解碼器組態之資訊84，亦即，關於用於對包括訊框n-4至n+3之資料串流進行編碼的編解碼器組態之資訊，且因此包括關於用以對與特殊訊框相關聯之音訊樣本值進行編碼之編解碼器組態的資訊。

在圖2中所示之實施例中，假定由音訊解碼器引入的延遲為三個訊框，亦即，假定需要三個所謂的預載訊框來在音訊解碼器之啟動期間建置完整的信號。因此，假定串流組態(編解碼器組態)已為解碼器所知，則解碼器通常應必須在訊框n-3處開始解碼以便在訊框n處產生有效的樣本。因此，為了使必需資訊可用於解碼器，額外資訊82包含在特殊訊框80之前且使用額外資訊82中指示之編解碼器組態84予以編碼的經編碼音訊樣本值之數個訊框。此數個訊框在圖2中由參考數字86指示。此數個訊框86對於將解碼器初始化為處於對與特殊訊框n相關聯之音訊樣本值進行解碼之位置中係必需的。因此，訊框86之資訊經複製且攜載為特殊訊框80之部分。因此，此資訊在於訊框n處切換至圖2中所示之資料串流之後可立即用於解碼器。在無訊框n中之此額外資訊的情況下，編解碼器組態84與訊框n-3至n-1兩者在切換之後皆將不可用於解碼器。將此資訊添加至特殊訊框80允許立即將解碼器初始化，且因此在切換至包含特殊訊框之資料串流之後立即播出。解碼器經組配而使得可在必須輸出藉由對訊框n進行解碼而獲得之輸出樣本之前的可用時間窗內執行訊框n之此類初始化及解碼。

在正常解碼(亦即，不切換至不同編解碼器組態) 期間，僅對訊框n進行解碼，且忽略包括在額外資訊中之訊框n-3至n-1。然而，在切換至不同編解碼器組態之後，提取特殊訊框80中之所有資訊，且基於所包括之編解碼器組態且基於在最終對當前圖框n進行解碼及重播之前對預載訊框(n-3至n-1)之解碼而將解碼器初始化。對預載訊框之解碼發生於對當前圖框進行解碼及重播之前。預載訊框並不重播，但解碼器經組配以在重播當前圖框n之前可用的時間窗內對預載訊框進行解碼。

術語「編解碼器組態」係指用於對音訊資料或音訊資料之訊框進行編碼之編解碼器組態。因此，寫碼組態可指示所使用之不同寫碼工具及模式，其中用於AAC中之例示性寫碼工具係頻譜帶複製(SBR)或短區塊(SB)。一個組態參數可為SBR交越頻率。其他組態參數可為取樣頻率或頻道組態。不同編解碼器組態在此等組態參數中之一或多者上不同。在本發明之實施例中，不同編解碼器組態亦可包含完全不同的編解碼器，諸如AAC、AMR或G.711。

因此，在圖2中所說明的實例中，三個訊框(亦即，n-3至n-1)對於補償解碼器啟動延遲係必需的。額外訊框資料可藉助於音訊位元串流內部之擴展酬載機制而傳輸。舉例而言，USAC擴展酬載機制(UsacExtElement)可用於攜載額外資訊。此外，「組態」欄位可用於傳輸串流組態94。此可適用於位元串流切換或位元率調適之情況。第一預載AU(n-3)與IPF自身(n)兩者皆可為可獨立解碼之訊框。在USAC之內容脈絡中，編碼器可對於彼等訊框將旗標(usacIndependencyFlag)設定為「1」。實施如圖2中所示之訊框結構，有可能隨機在每一IPF處存取位元串流，且立即播出有效PCM樣本。IPF之解碼程序可包含以下步驟。對所有「預載」AU(n-3...n-1)進行解碼，且捨棄所得輸出PCM樣本。內部解碼器狀態及緩衝器在此步驟之後經完全初始化。對訊框n進行解碼，且開始規則播出。繼續正常地對訊框n+1進行解碼。IPF可用作音訊串流存取點(SAP)。有效PCM樣本之立即播出在每一IPF處係可能的。

如本文中所定義之特殊訊框可實施於准許輔助資料或擴展資料或資料串流元素或用於傳輸音訊編解碼器外部資料之類似機制之多工及傳輸的任何編解碼器中。本發明之實施例參考USAC編解碼器構架之實施。可結合USAC音訊編碼器及解碼器實施本發明之實施例。USAC意謂統一話音及音訊寫碼，且參考標準ISO/IEC 23003-3：2012。在本發明之實施例中，額外資訊含於對應訊框(諸如，圖2中之訊框n)之擴展酬載中。舉例而言，USAC標準准許將任意擴展酬載添加至經編碼音訊資料。擴展酬載之存在可逐訊框地切換。因此，額外資訊可實施為經定義以攜載先前訊框之額外音訊資訊的新擴展酬載類型。

如上文所解釋，瞬時播出訊框80經設計而使得可立即(亦即，不必根據音訊編解碼器延遲而等待特定數目個訊框)產生與某一時戳(訊框n)相關聯之有效輸出樣本。換言之，可補償音訊編解碼器延遲。在圖2中所示的實施例中，音訊編解碼器延遲為三個訊框。此外，IPF經設計而使得其可充分且獨立地解碼，亦即，無需更進一步瞭解先前音訊串流。就此而言，添加至特殊訊框之數個訊框中之最早者(亦即，圖2中之訊框n-3)並未相對於任何先前訊框以時間差分方式進行編碼或熵編碼。此外，特殊訊框根本不相對於在含於額外資訊中之數個訊框中之最早者之前的任何訊框或相對於任何先前訊框以時間差分方式進行編碼或熵編碼。換言之，對於圖2中之訊框n-3及n，可移除對先前訊框之所有相依性，例如，對某些參數之時間差分寫碼或重設熵編碼。因此，彼等獨立訊框准許對所有符號之正確解碼及解析，但本身並不足以瞬時地獲得有效PCM樣本。儘管此類獨立訊框已經可用於常見音訊編解碼器(諸如，AAC或USAC)，但此類音訊編解碼器並非針對諸如IPF訊框80之特殊訊框而提供。

在本發明之實施例中，特殊訊框提供於圖1中所示的表示之每一串流存取點處。在圖1中，串流存取點為每一片段中之第一訊框，且標以影線。因此，圖1展示根據本發明之用於產生經編碼音訊輸出資料之裝置的特定實施例。此外，圖1中所示的編碼器1至m中之每一者表示根據本發明之音訊編碼器之一實施例。根據圖1，編碼器12至18表示經組配以提供與音訊輸入信號10之不同部分相關聯且藉由不同編解碼器組態予以編碼之片段的提供器。就此而言，編碼器12至18中之每一者使用一不同編解碼器組態。決策單元50經組配以針對每一片段決定下載哪一表示。因此，決策單元50經組配以基於控制信號選擇用於每一片段之編解碼器組態(與各別表示相關聯)。舉例而言，可自請求最佳地適合給定情境之表示的用戶端接收控制信號。

基於決策單元50之決策，區塊52藉由一個接一個地配置片段(諸如，片段46(表示3之片段2)在片段44(表示2之片段1)之後)而產生音訊輸出資料54。因此，在片段2之開始處的特殊訊框AU₅准許切換至表示3且在解碼器側上在片段44與46之間的邊界處立即重播。

因此，在圖1中所示的實施例中，提供器(包含編碼器1至m)經組配以提供音訊輸入10之m個經編碼版本，其中m2，其中該等m個經編碼版本(表示)係使用不同編解碼器組態予以編碼，其中每一經編碼版本包括表示該序列音訊樣本值之多個部分的多個片段，其中該等片段中之每一者在其開始處包含一特殊訊框。

在本發明之其他實施例中，相同音訊輸入之不同表示(諸如，圖1中之表示22至28)可儲存在記憶體中，且可在使用者請求對應媒體內容之情況下加以存取。

圖1中所示的編碼器例項1至m可取決於編碼器組態及/或編碼器例項中之工具的啟動而產生不同編碼器延遲。在此情況下，可採取措施以確保編碼器延遲得以補償以達成m個輸出串流(亦即，m個表示)之時間對準。此可 (例如)藉由將一定量的尾隨零樣本添加至編碼器輸入以便補償不同編碼器延遲來實施。換言之，不同表示中之片段將具有相同持續時間以便允許各表示在片段邊界處之無縫切換。理論片段持續時間取決於所使用的取樣率及訊框大小。圖3展示可歸因於不同取樣率及/或訊框大小的至具有不同成框之表示的可能IPF插入之實例。零樣本可在適當位置處添加至較短片段，使得所有特殊訊框係時間對準的，如可自圖3所見。

圖4a展示用於產生經編碼音訊輸出資料102之裝置90的示意圖。裝置90包含提供器92，該提供器經組配以將多個訊框40中之至少一訊框80提供為特殊訊框，如本文中所定義。在本發明之實施例中，提供器92可實施為用於對音訊樣本值進行編碼之編碼器之部分，其提供訊框40且將額外資訊添加至該等訊框中之至少一者以便產生特殊訊框。舉例而言，提供器92可經組配以將額外資訊作為酬載擴展添加至訊框40中之一者以產生特殊訊框80。表示經編碼音訊資料102之位元串流的訊框40、80經由輸出端112而輸出。

圖4b展示用於產生經編碼音訊輸出資料102之裝置100的示意圖。該裝置包含提供器104，該提供器經組配以提供與一序列音訊樣本值之不同部分相關聯的片段106、108。該等片段中之至少一者之第一訊框為如前文所解釋之特殊訊框。產生器110經組配以藉由將片段106、108中之至少一者配置在片段106、108中的另一者之後而產生音訊輸出資料。產生器110將音訊輸出資料遞送至經組配以輸出經編碼音訊資料102之輸出端112。

圖5展示用於對音訊輸入資料122進行解碼之音訊解碼器60之實施例的示意圖。音訊輸入資料可為圖1中所示的區塊52之輸出。音訊解碼器60包含判定器130、初始化器132及解碼器核心134。判定器130經組配以判定音訊輸入資料122之訊框是否為特殊訊框。初始化器132經組配以在訊框為特殊訊框且必需或需要初始化的情況下將解碼器核心134初始化。初始化包含對包括在額外資訊中之先前訊框進行解碼。解碼器核心134經組配以使用其藉以初始化之編解碼器組態而對經編碼音訊樣本值之訊框進行解碼。

在訊框並非特殊訊框之情況下，其被直接遞送至解碼器核心134(箭頭136)。在訊框為特殊訊框且不需要解碼器核心134之初始化的情況下，判定器130可捨棄額外資訊，且僅將特殊訊框(而非額外資訊中之訊框)之經編碼音訊樣本值遞送至解碼器核心134。判定器130可經組配以基於包括在額外資訊中之資訊或基於外部資訊而判定是否必須將解碼器核心134初始化。包括在額外資訊中之資訊可為關於用來對特殊訊框進行編碼之編解碼器組態的資訊，其中若此資訊指示先前訊框係使用與特殊訊框不同之編解碼器組態予以編碼，則判定器可決定初始化為必需的。外部資訊可指示在接收到下一特殊訊框之後應即刻將解碼器核心134初始化或重新初始化。

在本發明之實施例中，解碼器60經組配以在不同編解碼器組態中之一者中起始解碼器核心134。舉例而言，可使用不同編解碼器組態(亦即，如上文所解釋之不同編解碼器組態參數)起始軟體解碼器核心之不同例項。在本發明之實施例中，將解碼器(核心)初始化可包含關閉當前解碼器例項且使用包括在額外資訊中(亦即，在所接收位元串流內)或在外部遞送(亦即，在所接收位元串流外部)之編解碼器組態參數開啟新解碼器例項。解碼器60可取決於用以對所接收經編碼音訊資料之各別片段進行編碼之編解碼器組態而切換至不同編解碼器組態。

若額外資訊指示不同於當前編解碼器組態之編解碼器組態，則解碼器60可經組配以自當前編解碼器組態(亦即，音訊解碼器在遇到特殊訊框之前的編解碼器組態)切換至不同編解碼器組態。

參看圖6至圖8解釋具有AAC解碼器行為之音訊解碼器之實施例的進一步細節。圖8示意性地展示AAC解碼器之行為。參考標準ISO/IEC DTR 14496-24，「Audio and Systems Interaction」。

圖8展示解碼器在如下數個狀態上之行為：對應於一或多個預載訊框之第一狀態200，其為與訊框AU1、AU2及AU3中之每一者相關聯之一個狀態；以及「清空」狀態202。

為產生AU1之有效輸出樣本，必須對一或多個預載訊框及訊框AU1兩者進行解碼。藉由預載訊框產生之樣本被捨棄，亦即，僅用以將解碼器初始化且不被重播。然而，預載訊框之解碼對於設置內部解碼器狀態為強制性的。在本發明之實施例中，特殊訊框之額外資訊包括預載訊框。因此，解碼器處於對預載訊框進行解碼以設置內部解碼器狀態之位置，使得特殊訊框可被解碼，且可發生特殊訊框之有效輸出樣本的立即播出。「預載」AU(訊框)之實際數目取決於解碼器啟動延遲，在圖8之實例中為一個AU。

大體而言，對於檔案播放，如參看圖8所描述之立即播出係在系統層級上實施。迄今為止，其僅在解碼器啟動時發生。然而，特殊訊框(IPF)始終攜載足夠資訊來完全初始化內部解碼器狀態且填充內部緩衝器。因此，特殊訊框之插入實現在隨機串流位置處之立即播出。

圖8中之清空狀態202展示在對最末訊框AU₃進行解碼之後執行清空情況下的解碼器之行為。清空意謂向解碼器饋送假想零訊框，亦即，由所有「數字零」輸入樣本構成之假想訊框。歸因於AAC系列之重疊添加，清空導致不消耗新輸入訊框而達成之有效輸出。此之所以為可能的係因為最末訊框AU₃包括關於在對訊框AU₃後之下一訊框進行解碼時將獲得的輸出樣本值之預測資訊(此係因為訊框重疊在數個時域樣本值之上)。大體而言，訊框之前半部分與先前訊框重疊，且訊框之後半部分與隨後訊框重疊。因此，在對第一訊框進行解碼時獲得的輸出樣本值之後半部分包括關於在對第一訊框後之第二訊框進行解碼時獲得的輸出樣本值之前半部分的資訊。如下文將解釋，在實施交叉衰減時可利用此特性。

現參看圖6描述音訊解碼器之實施例之進一步細節及用於對音訊輸入資料進行解碼之方法，其中音訊解碼器經組配以執行如參看圖6及圖7所描述之方法。該程序在300處開始。解碼器掃描傳入訊框(AU)以發現IPF且判定傳入訊框是否為IPF(302)。若傳入訊框並非IPF，則對該訊框進行解碼(304)，且該程序跳轉至下一訊框(306)。若不存在下一訊框，則該程序結束。輸出經解碼PCM樣本，如區塊308(其可表示輸出緩衝器)所指示。若在302中判定訊框為IPF，則評估編解碼器組態(310)。舉例而言，評估圖2中所示的「組態」欄位。關於編解碼器組態(串流組態)是否已改變做出判定(312)。若編解碼器組態並未改變，亦即，若額外資訊指示編解碼器組態相同於當前編解碼器組態，則跳過諸如擴展酬載之額外資訊，且該程序跳轉至304，在304，解碼繼續正常進行。

若編解碼器組態已改變，則應用隨後步驟。清空解碼器(314)。將由清空解碼器產生之輸出樣本儲存於清空緩衝器中(316)。此等輸出樣本(或此等輸出樣本的至少一部分)為至交叉衰減程序318之第一輸入。接著使用如由額外資訊(諸如，由圖2中之欄位「組態」)指示之新編解碼器組態且使用包含在特殊訊框中之先前訊框將解碼器重新初始化。在重新初始化之後，解碼器即刻能夠對特殊訊框(亦即，與特殊訊框相關聯之經編碼音訊樣本值)進行解碼。對特殊訊框進行解碼(322)。將藉由對特殊訊框進行解碼而獲得之輸出樣本(PCM樣本)儲存為至交叉衰減程序318之第二輸入。舉例而言，對應PCM輸出樣本可儲存在緩衝器324(其可稱作IPF緩衝器)中。在交叉衰減程序318中，基於來自清空緩衝器及IPF緩衝器之兩個輸入信號而計算交叉衰減。交叉衰減之結果在區塊308輸出為PCM輸出樣本。其後，該程序跳轉至下一訊框(306)，且對於該下一訊框重複該程序。在當前訊框為最末訊框的情況下，該程序結束。

現參看圖7解釋在組態改變(如在312中已偵測到)之後執行的彼等步驟之進一步細節。自IPF之額外資訊擷取編解碼器組態(330)，且提供該編解碼器組態以用於解碼器重新初始化(332)。在將解碼器重新初始化之前，清空解碼器(314)，且將所得輸出樣本儲存在清空緩衝器316中。將解碼器重新初始化可包括關閉當前解碼器例項且以新組態開啟新解碼器例項。在重新開啟新解碼器例項時，使用關於含於IPF中之編解碼器組態之資訊。在開啟新解碼器例項之後，藉由對包括在IPF中之預載訊框進行解碼而將其初始化。假定含於IPF中之預載訊框之數目為m，如由區塊334所指示。判定是否m>0(336)。若m>0，則對預載訊框n-m進行解碼(338)，其中n指示IPF。捨棄所獲得的輸出PCM樣本(340)。m減小1，且該程序跳轉至區塊336。藉由對含於IPF中之所有預載訊框重複步驟336至342，執行在重新開啟解碼器之後填充該解碼器之解碼器狀態的程序(344)。若已對所有預載訊框進行解碼，則該程序跳轉至區塊332，在區塊332處，對IPF進行解碼。將所得PCM樣本遞送至PCM緩衝器(342)。基於來自PCM緩衝器316及324之輸出執行交叉衰減318，且將交叉衰減程序318之輸出遞送至輸出PCM緩衝器308。

在上文所述之實施例中，解碼器重新初始化包括關閉當前解碼器例項且開啟新解碼器例項。在替代實施例中，解碼器可包括並列的多個解碼器例項，使得解碼器重新初始化可包括在不同解碼器例項之間切換。此外，解碼器重新初始化包括藉由對包括在特殊訊框之額外資訊中的預載訊框進行解碼而填充解碼器狀態。

如上文所解釋，利用AAC解碼器上之內部記憶體狀態及緩衝器(重疊添加、濾波器狀態)，有可能在不藉助於清空程序傳遞新輸入的情況下獲得輸出樣本。清空之輸出信號極類似於所獲得之輸出樣本值之至少一部分(詳言之，其第一部分)的「原始信號」，參見圖8中之狀態202。藉由清空程序獲得之所獲得輸出樣本值用於下文詳細描述之交叉衰減程序。

如在圖8中之狀態202中可看出，所得清空緩衝器中之能量將取決於變換窗及當前編解碼器組態所啟用之工具而隨時間而減小。因此，應在清空緩衝器之第一部分處應用交叉衰減，此處可認為輸出信號幾乎為滿能量的。利用可清空現代音訊編解碼器以獲得用於連續交叉衰減之有效樣本的事實顯著有益於獲得無縫的切換值。因此，在本發明之實施例中，交叉衰減器經組配以執行藉由當前編解碼器組態之清空程序獲得之輸出值與藉由使用額外資訊中指示之編解碼器組態對特殊訊框進行解碼而獲得之輸出樣本值之間的交叉衰減。

下文中，描述交叉衰減程序之特定實施例。將交叉衰減應用於如上文所描述之音訊信號以便避免CAR切換期間之可聽到的偽聲。典型偽聲為輸出信號能量之下降。如上文所解釋，經清空信號之能量將取決於組態而減小。因此，交叉衰減之長度必須取決於組態而謹慎地選擇以便避免偽聲。若交叉衰減窗過短，則切換程序可能歸因於音訊波形之差異而引入可聽到的偽聲。若交叉衰減窗過長，則經清空音訊樣本已經損失能量，且將引起輸出信號能量之下降。對於使用256個樣本之短變換窗之AAC編解碼器組態，可應用長度為n=128個樣本(每頻道)之線性交叉衰減。在其他實施例中，可應用長度為(例如)64個樣本(每頻道)之線性交叉衰減。

下文描述使用128個樣本之線性交叉衰減程序之實例：交叉衰減程序可使用清空緩衝器之前128個樣本。清空緩衝器藉由將清空緩衝器之前128個樣本S_f=S_f0、...、S_f127乘以1-而開窗，其中□為當前樣本之索引。結果可儲存在交叉衰減器之內部緩衝器中，亦即S _f'=S _f0．(1-),...,S ₁₂₇．(1-)。此外，IPF緩衝器S_d經開窗，其中前128個經解碼IPF輸出樣本乘以因數，其中□為當前樣本之索引。結果可儲存在交叉衰減器之內部緩衝器中，亦即S _d'=S _d0．,...,S ₁₂₇．1,...,S _dn。

將內部緩衝器之前128個樣本相加：S ₀=S _d'0+S _f'0,...,S _d'127+S _f',S _d'128,...S _d'n，且所得值輸出至PCM輸出樣本緩衝器308。

因此，達成在清空緩衝器之前128個輸出樣本值與IPF緩衝器之前128個樣本值上之線性交叉衰減。

大體而言，交叉衰減器可經組配以執行使用當前編解碼器組態獲得之多個輸出樣本值與藉由對與特殊訊框相關聯之經編碼音訊樣本值進行解碼而獲得之多個輸出樣本值之間的交叉衰減。大體而言，在諸如AAC系列編解碼器及AMR系列編解碼器之音訊編解碼器中，先前訊框之經編碼音訊樣本值隱含地包含關於在下一訊框中編碼之音訊信號的資訊。可在於不同編解碼器組態之間切換時實施交叉衰減的過程中利用此特性。舉例而言，若當前編解碼器組態為AMR編解碼器組態，則用於交叉衰減中之輸出樣本值可基於零脈衝回應(亦即，基於在當前編解碼器組態之最末訊框之後將零訊框應用於解碼器核心時獲得之回應)而獲得。在本發明之實施例中，用於音訊寫碼及解碼中之額外機制可用於交叉衰減中。舉例而言，用於SBR(頻譜帶複製)中之內部濾波器包含延遲，且因此包含可用於交叉衰減中之冗長安定時間。因此，本發明之實施例並不限於任何特定交叉衰減以便達成編解碼器組態之間的無縫切換。舉例而言，交叉衰減器可經組配以將增大之權重應用於特殊訊框之第一數目個輸出樣本值，且將減小之權重應用於基於使用當前編解碼器組態進行解碼而獲得之數個輸出樣本值，其中權重可線性地增大及減小，或可以非線性方式增大及減小。

在本發明之實施例中，解碼器之初始化包含使用特殊訊框之額外資訊將內部解碼器狀態及緩衝器初始化。在本發明之實施例中，解碼器之初始化在編解碼器組態改變之情況下發生。在本發明之其他實施例中，特殊訊框可用於在不改變編解碼器組態之情況下將解碼器初始化。舉例而言，在本發明之實施例中，解碼器可經組配用於立即播出，其中解碼器之內部狀態及緩衝器經填充而不改變編解碼器組態，其中可執行與零樣本之交叉衰減。因此，有效樣本之立即播出係可能的。在其他實施例中，可實施快進功能，其中可取決於所要快進速率而以預定間隔對特殊訊框進行解碼。在本發明之實施例中，可基於供應至音訊解碼器之外部控制信號而進行如下決策：使用特殊訊框之初始化是否將發生，亦即，是否必需或需要。

如上文所解釋，特殊訊框(諸如，如圖2中所示之 IPF 80)可分別用於位元率調適及位元串流切換。可應用以下約束：所有表示(例如，不同位元率、寫碼工具之不同利用率)經時間對準，IPF插入至每一表示中，IPF經同步，且圖2中之IPF欄位「組態」含有串流組態，亦即，工具之啟動等。圖9展示在自適應串流傳輸環境中的位元串流切換所採用之位元率之實例。有時稱為構架之控制邏輯(諸如，圖1中所示的系統)將音訊資料劃分成片段。一片段包含多個AU。音訊串流組態可在每一片段邊界處改變。音訊解碼器不知曉分段，僅由控制邏輯向其提供簡單的AU。為實現在每一片段邊界處之音訊位元串流切換，每一片段之第一AU 可為IPF，如上文所解釋。在圖9中，片段邊界400藉由虛線指示。在圖9中所說明的情形中，向音訊解碼器提供「串流1」之AU 40(AU1至AU3)。控制邏輯決定在下一片段邊界(亦即，邊界400)處切換至「串流2」。在對「串流1」之AU3進行解碼之後，控制邏輯可將「串流2」之AU4傳遞至音訊解碼器而無任何進一步通知。AU4為特殊訊框(IPF)，且因此，立即播出可在切換至串流2之後發生。

參考圖9中所示的情形，切換可如下發生：對於串流1之AU1至AU3，未偵測到IPF，且解碼程序正常進行。對於串流2之AU4，偵測到IPF。此外，偵測串流組態之改變。音訊解碼器將圖9中之清空程序402初始化。所得PCM輸出樣本儲存在臨時緩衝器(清空緩衝器)中供稍後使用。音訊解碼器藉由IPF所攜載之串流組態而重新初始化。對IPF酬載(「預載」)進行解碼。捨棄所得輸出PCM樣本。此時，內部解碼器狀態及緩衝器已完全初始化。對AU4進行解碼。為避免切換偽聲，應用交叉衰減。儲存在清空緩衝器中之PCM樣本經漸弱，而由對AU4進行解碼而產生且儲存在PCM輸出緩衝器中之PCM樣本經漸強。播出交叉衰減之結果。

因此，可利用IPF來實現經壓縮音訊表示之切換。解碼器可接收簡單的AU作為輸入，因此不需要進一步之控制邏輯。

現描述在MPEG-D USAC之內容脈絡中的特定實施例之細節，其中位元串流語法可如下： AudioPreRoll()語法元素用以傳輸先前訊框之音訊資訊連同當前訊框之資料。額外音訊資料可用以補償解碼器啟動延遲(預載)，因此實現利用AudioPreRoll()在串流存取點處之隨機存取。UsacExtElement()可用以傳輸AudioPreRoll()。為此目的，將使用新的酬載識別符：

AudioPreRoll()之語法展示於圖10中且在下文解釋：configLen以位元組計的組態語法元素之大小。

Config()解碼器組態語法元素。在MPEG-D USAC之內容脈絡中，此為如在ISO/IEC 23003-3：2012中定義之UsacConfig()。Config()欄位可經傳輸以能夠回應於音訊組態之改變(串流之切換)。

numPreRollFrames作為音訊預載資料傳輸之預載存取單元(AU)之數目。AU之合理數目取決於解碼器啟動延遲。

auLen以位元組計之AU長度。

AccessUnit()預載AU。

擴展元素中攜載之預載資料可「帶外」傳輸，亦即，可不滿足緩衝器要求。

為了使用AudioPreRoll()用於隨機存取及位元率調適兩者，應用以下約束：

- 每一訊框之第一元素為類型ID_EXT_ELE_AUDIOPREROLL之擴展元素 (UsacExtElement)。

- 應如表2中所描述而設置對應UsacExtElement()。

- 因此，若存在預載資料，則此UsacFrame()應按以下位元順序開始：

"1"：usacIndependencyFlag。

"1"：usacExtElementPresent(參考音訊預載擴展元素)。

"0"：usacExtElementUseDefaultLength(參考音訊預載擴展元素)。

- 若未傳輸預載資料，則不應存在擴展酬載(usacExtElementPresent=0)。

- 具有索引「0」及「numPreRollFrames-1」之預載訊框應可獨立地解碼，亦即，usacIndependencyFlag應設定為「1」。

隨機存取及立即播出在利用如所描述之 AudioPreRoll()結構之每一訊框處係可能的。以下偽碼描述解碼程序：

可藉由在相同音訊內容之不同經編碼表示之間的切換利用位元率調適。如所描述之AudioPreRoll()結構可用於該目的。位元率調適情況下之解碼程序藉由以下偽碼描述：

儘管已在裝置之上內容脈絡中描述一些態樣，但顯而易見，此等態樣亦表示對應方法之描述，其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地，方法步驟之內容脈絡中所描述之態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(例如，微處理器、可規劃電腦或電子電路)執行方法步驟中之一些或全部。在一些實施例中，可由此裝置執行最重要之方法步驟中的某一者或多者。在本發明之實施例中，本文中所描述之方法係處理器實施或電腦實施的。

取決於某些實施要求，本發明之實施例可以硬體或軟體實施。可使用諸如數位儲存媒體(例如，軟碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或快閃記憶體)之非暫時性儲存媒體來執行實施，該非暫時性儲存媒體具有儲存於其上之電子可讀控制信號，與可規劃電腦系統協作(或能夠協作)使得執行各別方法。因此，數位儲存媒體可係電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，其能夠與可規劃電腦系統協作，使得執行本文中所描述之方法中的一者。

大體而言，本發明之實施例可實施為具有程式碼之電腦程式產品，當電腦程式產品運行於電腦上時，程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中的一者的電腦程式。

換言之，因此，本發明方法之實施例為具有當電腦程式運行於電腦上時，用於執行本文中所描述之方法中的一者的程式碼之電腦程式。

因此，本發明方法之另一實施例為資料載體(或數位儲存媒體，或電腦可讀媒體)，其包含記錄於其上的用於執行本文中所描述之方法中的一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。

因此，本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者的電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如，經由網際網路)而傳送。

另一實施例包含處理構件(例如，電腦或可規劃邏輯器件)，其經規劃以、經組配以或經調適以執行本文中所描述之方法中之一者。

另一實施例包含上面安裝有用於執行本文中所描述之方法中的一者的電腦程式之電腦。

根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中的一者的電腦程式傳送(例如，用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或其類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可規劃邏輯器件(例如，場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器協作，以便執行本文中所描述之方法中的一者。大體而言，較佳地由任何硬體裝置執行該等方法。

上文所描述之實施例僅僅說明本發明之原理。應理解，熟習此項技術者將顯而易見對本文中所描述之配置及細節的修改及變化。因此，其僅意欲由接下來之申請專利範圍之範疇限制，而非由藉由本文中實施例之描述及解釋所呈現的特定細節限制。

308‧‧‧區塊/PCM輸出樣本緩衝器/輸出PCM緩衝器

312、314、322、330~344‧‧‧步驟

316‧‧‧清空緩衝器/PCM緩衝器

318‧‧‧交叉衰減程序/交叉衰減器

324‧‧‧IPF緩衝器/PCM緩衝器

Claims

一種用於對經編碼音訊資料之一位元串流進行解碼的音訊解碼器，其中經編碼音訊資料之該位元串流表示一序列音訊樣本值，且包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，該音訊解碼器包含：一判定器，其經組配以判定該經編碼音訊資料之一訊框是否為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，其中若該特殊訊框為啟動該解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及一初始化器，其經組配以在該判定器判定該訊框為一特殊訊框的情況下將該解碼器初始化，其中將該解碼器初始化包含對包括在該額外資訊中之該等經編碼音訊樣本值進行解碼，隨後對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼。
如請求項1之音訊解碼器，其中若該判定器判定該訊框為一特殊訊框且若該特殊訊框之該等音訊樣本值已使用一不同編解碼器組態予以編碼，則該初始化器經組配以將該音訊解碼器自一當前編解碼器組態切換至該不同編解碼器組態。
如請求項2之解碼器，若該判定器判定該訊框為一特殊訊框且若該特殊訊框之該等音訊樣本值已使用該當前編解碼器組態予以編碼，則該解碼器經組配以使用該當前編解碼器組態對該特殊訊框進行解碼且捨棄該額外資訊。
如請求項2之音訊解碼器，其中該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊，其中該判定器經組配以判定該額外資訊之該編解碼器組態是否不同於該當前編解碼器組態。
如請求項2至4中任一項之音訊解碼器，其包含一交叉衰減器，該交叉衰減器經組配以在使用該當前編解碼器組態獲得之多個輸出樣本值與藉由對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼而獲得之多個輸出樣本值之間執行交叉衰減。
如請求項5之音訊解碼器，其中該交叉衰減器經組配以對藉由清空處於該當前編解碼器組態中之該解碼器而獲得的輸出樣本值與藉由對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼而獲得的輸出樣本值執行交叉衰減。
如請求項1至6中任一項之音訊解碼器，其中包含在該額外資訊中的該等數個訊框中之一最早訊框並未相對於在該最早訊框之前的任何訊框以時間差分方式進行編碼或熵編碼，且其中該特殊訊框並未相對於在處於該特殊訊框之前的該等數個訊框中之該最早訊框之前的任何訊框或相對於在該特殊訊框之前的任何訊框以時間差分方式進行編碼或熵編碼。
如請求項1至7中任一項之音訊解碼器，其中該特殊訊框將該額外資訊包含為一擴展酬載，且其中該判定器經組配以評估該特殊訊框之該擴展酬載。
一種用於產生表示一音訊信號之一序列音訊樣本值的經編碼音訊資料之一位元串流的裝置，其中經編碼音訊資料之該位元串流包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，其中該裝置包含：一特殊訊框提供器，其經組配以將該等訊框中之至少一者提供為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，且其中若該特殊訊框為啟動一解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及一輸出端，其經組配以輸出經編碼音訊資料之該位元串流。
如請求項9之裝置，其中該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊。
如請求項9或10之裝置，其中該經編碼音訊資料包含多個片段，其中每一片段與該序列音訊樣本值之多個部分中之一者相關聯且包含多個訊框，其中特殊訊框添加器經組配以將一特殊訊框添加在每一片段之開始處。
如請求項9或10中任一項之裝置，其中該經編碼音訊資料包含多個片段，其中每一片段與該序列音訊樣本值之多個部分中之一者相關聯且包含多個該等訊框，該裝置包含：一片段提供器，其經組配以提供與該序列音訊樣本值之不同部分相關聯且藉由不同編解碼器組態予以編碼的片段，其中該特殊訊框提供器經組配以將該等片段中之至少一者的一第一訊框提供為該特殊訊框；以及一產生器，其經組配以藉由將該等片段中之該至少一者配置在該等片段中的另一者之後而產生該音訊輸出資料。
如請求項12之裝置，其中該片段提供器經組配以基於一控制信號選擇用於每一片段之一編解碼器組態。
如請求項12或13之裝置，其中該片段提供器經組配以提供該序列音訊樣本值之m個經編碼版本，其中m2，其中該等m個經編碼版本係使用不同編解碼器組態予以編碼，其中每一經編碼版本包含表示該序列音訊樣本值之該等多個部分的多個片段，其中該特殊訊框提供器經組配以將一特殊訊框提供於該等片段中之每一者的開始處。
如請求項14之裝置，其中該片段提供器包含多個編碼器，每一編碼器經組配以根據該等多個不同編解碼器組態中之一者至少部分地對該音訊信號進行編碼。
如請求項15之裝置，其中該片段提供器包含一記憶體，該記憶體儲存該序列音訊樣本值之該等m個經編碼版本。
如請求項12至15中任一項之裝置，其中該特殊訊框提供器經組配以將該額外資訊提供為該特殊訊框之一擴展酬載。
一種用於對經編碼音訊資料之一位元串流進行解碼的方法，其中經編碼音訊資料之該位元串流表示一序列音訊樣本值且包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，該方法包含：判定該經編碼音訊資料之一訊框是否為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，其中若該特殊訊框為啟動一解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及在判定該訊框為一特殊訊框的情況下將該解碼器初始化，其中該初始化包含對包括在該額外資訊中之該等經編碼音訊樣本值進行解碼，隨後對與該特殊訊框相關聯之該等經編碼音訊樣本值進行解碼。
如請求項18之方法，其包含若判定該訊框為一特殊訊框且若該特殊訊框之該等音訊樣本值已使用一不同編解碼器組態予以編碼，則將該音訊解碼器自一當前編解碼器組態切換至該不同編解碼器組態。
如請求項19之方法，其中音訊資料之該位元串流包含使用一第一編解碼器組態編碼之第一數目個訊框及在該等第一數目個訊框之後且使用一第二編解碼器組態編碼之第二數目個訊框，其中該等第二數目個訊框中之第一訊框為該特殊訊框。
如請求項18至20中任一項之方法，其中該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊，該方法包含判定該額外資訊之該編解碼器組態是否不同於用於對該位元串流中先於該特殊訊框之訊框之經編碼音訊樣本值進行編碼的該當前編解碼器組態。
一種用於產生表示一音訊信號之一序列音訊樣本值的經編碼音訊資料之一位元串流的方法，其中經編碼音訊資料之該位元串流包含多個訊框，其中每一訊框包括相關聯之經編碼音訊樣本值，該方法包含：將該等訊框中之至少一者提供為一特殊訊框，該特殊訊框包含與該特殊訊框相關聯之經編碼音訊樣本值及額外資訊，其中該額外資訊包含在該特殊訊框之前的數個訊框之經編碼音訊樣本值，其中該等先前訊框之該等經編碼音訊樣本值係使用與該特殊訊框相同之編解碼器組態予以編碼，且其中若該特殊訊框為啟動一解碼器後之第一訊框，則該等數個先前訊框足以將該解碼器初始化為處於對與該特殊訊框相關聯之該等音訊樣本值進行解碼之一位置；以及藉由串接該特殊訊框與該等多個訊框中之其他訊框而產生該位元串流。
如請求項22之方法，其中該額外資訊包含關於用於對與該特殊訊框相關聯之該等音訊樣本值進行編碼之該編解碼器組態的資訊。
如請求項22或23之方法，其包含提供與該序列音訊樣本值之不同部分相關聯且藉由不同編解碼器組態予以編碼之片段，其中該等片段中之至少一者之一第一訊框被提供為該特殊訊框。
一種電腦程式，其用於在於一電腦或一處理器上執行時執行如請求項18至24中任一項之方法。