TWI700686B

TWI700686B - 用於接收媒體資料之方法，器件及非暫時性電腦可讀儲存媒體

Info

Publication number: TWI700686B
Application number: TW105139680A
Authority: TW
Inventors: 湯瑪士史塔克漢莫
Original assignee: 美商高通公司
Priority date: 2015-12-01
Filing date: 2016-12-01
Publication date: 2020-08-01
Also published as: US20170156015A1; CA3002227C; KR102125484B1; WO2017096023A1; CA3002227A1; JP2019504341A; EP3384680A1; BR112018010878A2; CN108293153A; TW201724086A; US9854375B2; KR20180089416A; JP6681986B2

Abstract

一種用於接收音訊資料之實例器件包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

Description

用於接收媒體資料之方法，器件及非暫時性電腦可讀儲存媒體

本發明係關於媒體資料之輸送，且特定而言，係關於音訊資料之輸送。

高階高保真立體混響聲(HOA)信號(通常由複數個球諧係數(SHC)或其他階層要素表示)為聲場之三維表示。HOA或SHC表示可表示以獨立於用於播放自SHC信號再現之多頻道音訊信號之本端揚聲器幾何形狀之方式表示聲場。可編碼HOA或SHC表示。亦可編碼對應視訊資料，以及其他媒體資料(諸如時間文字)。

在已編碼諸如音訊或視訊資料之媒體資料之後，可將媒體資料封包化以進行傳輸或儲存。媒體資料可經組譯至符合於各種標準中之任一者(諸如國際標準組織(ISO)基礎媒體檔案格式及其擴展)之媒體檔案中。

一般而言，本發明描述用於使用串流遞送(諸如基於廣播或寬頻之單播)來輸送下一世代音訊(NGA)資料之技術。亦描述用於基於音訊對象之特性而選擇(例如，預選擇)音訊對象之技術。

在一項實例中，接收媒體資料之方法包括：接收描述符合MPEG-H 或AC-4第2部分之複數個音訊對象的資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至一該音訊解碼器。

在另一實例中，用於接收音訊資料之器件包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

在另一實例中，用於接收音訊資料之器件包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；用於接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案之構件，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，用於接收指示將呈現該等音訊對象中之哪些的選擇資料之構件，用於基於該選擇資料而接收包括該等音訊對象之串流化媒體資料之構件，及用於將由該選擇資料指示之該等音訊對象提供至該音訊解碼器之構件。

在另一實例中，電腦可讀儲存媒體其上儲存有指令，該等指令在被執行時使接收器器件之一或多個處理器接收描述符合MPEG-H或AC-4第2

部分之複數個音訊對象的資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及提供由該選擇資料向該接收器器件之該音訊解碼器指示之該等音訊對象。

下文之隨附圖式及描述中闡明一或多個實例之細節。根據該描述及圖式以及根據申請專利範圍將明瞭其他特徵、目的及優點。

10:系統

20:內容準備器件

22:音訊源

24:視訊源

26:音訊編碼器

28:視訊編碼器

30:囊封單元

32:輸出介面

40:用戶端器件

42:音訊輸出

44:視訊輸出

46:音訊解碼器

48:視訊解碼器

50:解囊封單元

52:接收單元

60:廣播源器件

62:儲存媒體

64:多媒體內容

66:資訊清單檔案

68A:表示

68N:表示

72:輸出介面

74:網路

100:無線(OTA)廣播中間軟體單元

102:代理伺服器

104:快取記憶體

106:無線(OTA)廣播接收單元

110:經由HTPP之動態自適性串流(DASH)之用戶端

112:媒體應用程式

120:多媒體內容

122:媒體呈現描述(MPD)

124A:表示

124N:表示

126:標頭資料

128A:區段

128B:區段

128N:區段

130:標頭資料

132A:區段

132B:區段

132N:區段

150:媒體檔案

152:檔案類型(FTYP)方塊

154:影片(MOOV)方塊

156:影片標頭(MVHD)方塊

158:音軌(TRAK)方塊

160:影片延伸(MVEX)方塊

162:區段索引(sidx)方塊

164:影片片段(MOOF)方塊

166:影片片段隨機存取(MFRA)方塊

200:系統

202:系統後設資料

204:音樂及音效(M&E)串流

206:系統後設資料

208:英文對話串流

210:系統後設資料

212:德文對話串流

216:英文註釋串流

220:德文註釋串流

222:選擇單元

224:系統層單元

226:音訊解碼器

228:音訊再現單元

230:使用者介面/代理

232:瀏覽器

236:選擇

238:選擇資料

240:選擇資料

242:經解碼音訊資料

250:系統

252:系統後設資料

253:音訊串流後設資料

254:音樂及音效(M&E)串流

256:系統後設資料

258:英文對話串流

260:系統後設資料

262:德文對話串流

264:系統後設資料

266:英文註釋串流

268:系統後設資料

270:德文註釋串流

272:選擇單元

274:系統層單元

276:音訊解碼及呈現單元

278:使用者介面

280:使用者介面/代理

282:瀏覽器

284:可用性資料

286:選擇資料

288:選擇資料

290:選擇資料

292:選擇資料

300:系統

302:系統後設資料

303:音訊串流後設資料

304:音樂及音效(M&E)串流

306:系統後設資料

308:英文對話串流

310:系統後設資料

312:德文對話串流

314:系統後設資料

316:英文註釋串流

318:系統後設資料

320:德文註釋串流

322:選擇單元

324:系統層單元

326:音訊解碼及呈現單元

330:使用者介面/代理

332:輸入

334:選擇資料

336:音訊資料

350:系統

352:系統後設資料

353:音訊串流後設資料

354:音樂及音效(M&E)串流

356:系統後設資料

358:英文對話串流

360:系統後設資料

362:德文對話串流

364:系統後設資料

366:英文註釋串流

368:系統後設資料

370:德文註釋串流

372:選擇單元

374:系統層單元

376:音訊解碼及呈現單元

382:瀏覽器

386:輸入

388:選擇資料

390:音訊資料

400:系統

402:系統後設資料

403:音訊串流後設資料

404:音樂及音效(M&E)串流

406:系統後設資料

408:英文對話串流

410:系統後設資料

412:德文對話串流

414:系統後設資料

416:英文註釋串流

418:系統後設資料

420:德文註釋串流

422:選擇單元

424:系統層單元

426:音訊解碼及再現單元

428:使用者介面

432:瀏覽器

434:資料

440:資料

450:系統

452:系統後設資料

453:音訊串流後設資料

454:音樂及音效(M&E)串流

456:系統後設資料

458:英文對話串流

460:系統後設資料

462:德文對話串流

464:系統後設資料

466:英文註釋串流

468:系統後設資料

470:德文註釋串流

472:選擇單元

474:系統層單元

476:音訊解碼及呈現單元

478:使用者介面

480:使用者介面/代理

482:瀏覽器

484:資料

486:選擇資訊

488:選擇資訊

490:選擇資料

492:選擇資訊

500:系統

502:音訊串流後設資料

504:音樂及音效(M&E)串流

506:英文對話串流

508:德文對話串流

510:英文註釋串流

512:德文註釋串流

514:預選擇單元

516:使用者介面

520:下一世代音訊(NGA)音訊解碼器

522:下一世代音訊(NGA)處理器

524:音訊解碼及呈現單元

526:音訊資料

528:輸入/使用者選擇

530:系統

532:音訊串流後設資料

534:音樂及音效(M&E)媒體串流

535:媒體串流

536:英文對話

538:德文對話串流

540:英文註釋串流

542:德文註釋串流

544:預選擇單元

546:使用者介面

550:下一世代音訊(NGA)音訊解碼器

552:下一世代音訊(NGA)處理器

554:音訊解碼及呈現單元

556:音訊資料

558:使用者選擇

560:系統

562:音訊串流後設資料

564:音樂及音效(M&E)媒體串流

565:媒體串流

566:英文對話串流

568:德文對話串流

570:英文註釋串流

572:德文註釋串流

574:預選擇單元

576:使用者介面

580:下一世代音訊(NGA)音訊解碼器

582:下一世代音訊(NGA)處理器

584:音訊解碼及呈現單元

586:音訊資料

588:使用者選擇

600:接收器器件

602:系統後設資料

603:音訊串流後設資料

604:音樂及音效(M&E)串流

606:系統後設資料

608:英文對話串流

610:系統後設資料

612:德文對話串流

614:系統後設資料

616:英文註釋串流

618:系統後設資料

620:德文註釋串流

622:預選擇單元

624:系統層單元

626:下一世代音訊(NGA)音訊解碼器

628:下一世代音訊(NGA)處理器

630:音訊解碼及呈現單元

632:web瀏覽器

634:使用者介面/代理

636:資料

638:資料

640:資料

642:資料

644:音訊資料

650:接收器器件

652:系統後設資料

653:音訊串流後設資料

654:音樂及音效(M&E)串流

656:系統後設資料

658:英文對話串流

660:系統後設資料

662:德文對話串流

664:系統後設資料

666:英文註釋串流

668:系統後設資料

670:德文註釋串流

672:預選擇單元

674:系統層單元

676:下一世代音訊(NGA)音訊解碼器

678:下一世代音訊(NGA)處理器

680:音訊解碼及呈現單元

682:web瀏覽器

684:使用者介面

686:資料

688:資料

692:資料

694:音訊資料

700:接收器器件

702:後設資料

703:音訊串流後設資料

704:音樂及音效(M&E)串流

706:後設資料

708:英文對話串流

710:後設資料

712:德文對話串流

714:後設資料

716:英文註釋串流

718:後設資料

720:德文註釋串流

722:預選擇單元

724:系統層單元

726:下一世代音訊(NGA)音訊解碼器

728:下一世代音訊(NGA)處理器

730:音訊解碼及呈現單元

732:使用者介面/代理

734:使用者介面

736:資料

738:資料

740:資料

742:資料

744:音訊資料

746:瀏覽器

750:系統

752:系統後設資料

753:音訊串流後設資料

754:音樂及音效(M&E)串流

756:系統後設資料

758:英文對話串流

760:系統後設資料

762:德文對話串流

764:系統後設資料

766:英文註釋串流

768:系統後設資料

770:德文註釋串流

772:選擇單元

774:系統層單元

776:音訊解碼及呈現單元

778:使用者介面

780:音訊串流後設資料處理單元

782:瀏覽器

784:資料

790:選擇資料

792:選擇資料

796:媒體資料

圖1為說明實施用於經由網路串流媒體資料之技術之實例系統的方塊圖。

圖2為更詳細說明擷取單元之一組實例組件的方塊圖。

圖3為說明實例多媒體內容之要素的概念圖。

圖4為說明可對應於表示之區段之實例媒體檔案之要素的方塊圖。

圖5為說明用於輸送音訊資料之實例舊型系統的概念圖。

圖6為根據本發明之技術說明可用於支援下一世代音訊資料之輸送的諸多變化形式及選項之實例系統的概念圖。

圖7為說明系統為中心之第一實例的概念圖。

圖8為說明部分自適應集之呈現定義與實例之間的映射的概念圖。

圖9為說明使用系統及HTML-5之另一實例的概念圖。

圖10為說明使用系統及音訊解碼器之另一實例系統的概念圖。

圖11為說明實例資料集及@bundleID之值與經由各種類型之遞送網路之可用性之間的對應性的概念圖。

圖12為說明一組實例部分自適應集之資料網路可用性之實例的概念圖。

圖13為根據本發明之技術說明使用各種選擇技術之另一實例系統的概念圖。

圖14為說明使用系統及音訊解碼器之根據本發明之技術的另一實例系統的概念圖。

圖15至圖17為根據本發明之技術說明實例音訊資料模型的概念圖。

圖18為說明包括定位在web瀏覽器與MPEG-2系統層之間的使用者介面之接收器器件之實例的概念圖。

圖19為說明包括定位在web瀏覽器與NGA音訊解碼器之間的使用者介面之接收器器件之另一實例的概念圖。

圖20為說明接收器器件之另一實例的概念圖。

圖21為說明在MPEG-2系統級上作出對所有資料之實例選擇的概念圖。

圖22為說明其中除M&E音訊資料外亦存在對英文註釋之選擇的實例的概念圖。

圖23為說明其中預選擇單元(或另一單元)剪除自適應集以將未由使用者選擇之彼等移除之另一實例的概念圖。

圖24為根據本發明之技術說明實例方法的流程圖。

本申請案主張美國臨時申請案第62/261,743號(在2015年12月1日提出申請)及第62/387,269號(在2015年12月22日提出申請)之權益，該等美國臨時申請案中之每一者之整個內容特此以引用方式併入本文中。

一般而言，本發明描述用於輸送經編碼媒體資料(諸如經編碼音訊資料)之技術。本發明之技術通常係針對通告後設資料集中之可用音訊資料串流，伴隨該等串流中之一者(諸如，音樂及音效(M&E)串流)。亦即，各種不同音訊資料串流可用，例如，M&E串流、各種語言之對話串流及各種語言之註釋。後設資料可描述哪些音訊資料串流集可用及該等串流之特性。後設資料可進一步指示可如何存取串流，例如，串流是經由廣播(諸如，ATSC 3.0廣播或基於網路廣播或多播，諸如增強式多媒體多播服務(eMBMS))、寬頻(例如，單播網路擷取)抑或兩者可用。

後設資料可被包括在資訊清單檔案(諸如，經由HTPP之動態自適性串流(DASH)之媒體呈現描述(MPD))中，或被包括在與其他HTTP串流化協定相關聯之其他類型之資訊清單檔案中。此外，接收器件可包括經組態以接收後設資料之音訊處理單元。後設資料可符合下一世代音訊(NGA)寫碼標準，諸如MPEG-H或AC-4第2部分。因此，本發明之技術之某些態樣包括使用已經組態以處理NGA寫碼標準之後設資料之NGA音訊解碼單元來將來自後設資料之資訊提供至MPEG-2系統層單元，而非組態MPEG-2系統層單元或其他此類處理單元以分析後設資料。以此方式，本發明之技術可利用NGA音訊解碼單元之能力除作為解碼及再現程序之部分外亦作為資料傳輸及接收程序之部分。

此外，根據本發明之某些技術，且根據DASH串流化協定，每一音訊串流可對應於DASH自適應集。亦即，上文所論述之資訊清單檔案可發信通知自適應集之特性，其中自適應集中之每一者可對應於可用音訊資料串流中之每一者。

此外，在一些實例中，使用者可選擇音訊資料之某些選項，該音訊資料可儲存作為可用音訊串流之預選擇之組態資料。舉例而言，使用者可選擇在無註釋之情況下接收音樂及音效串流及某一語言(例如，英文)之對話串流作為預設。因此，接收器件可包括儲存待用於自可用音訊串流進行選擇之預選擇資料的使用者代理單元。因此，NGA音訊解碼單元可判定哪些音訊資料串流可用且將該等可用音訊資料串流通告至MPEG-2系統層單元。MPEG-2系統層單元可自(例如)使用者代理單元接收表示將選擇哪些串流之預選擇資料並將選擇資料提供至NGA音訊解碼單元。

環繞立體聲之演進已使得用於娛樂之諸多輸出格式可用。此等消費者環繞立體聲格式之實例大部分為基於「頻道」，此係因為其以某些幾何座標隱式地規定至揚聲器之饋送。消費者環繞立體聲格式包括流行的5.1格式(其包括以下六個頻道：左前(FL)、右前(FR)、中央或中前、左後或環繞左、右後或環繞右及低頻率音效(LFE))，發展中之7.1格式，及包括高度揚聲器之各種格式(諸如7.1.4格式及22.2格式(例如，供超高清晰度電視標準使用))。非消費者格式可跨越任何數目個揚聲器(呈對稱及不對稱幾何形狀)(通常稱作「環繞陣列」)。此一陣列之一項實例包括定位在截角二十面體之拐角上之座標上的32個揚聲器。

至未來MPEG-H編碼器之輸入視情況為三個可能格式中之一者：(i)傳統基於頻道之音訊(如上文所論述)，其意欲經由在預先規定位置處之揚聲器播放；(ii)基於對象之音訊，其涉及關於單個音訊對象之離散脈衝碼調變(PCM)資料及含有其位置座標之相關聯後設資料(在其他資訊間)；及(iii)基於場景之音訊，其涉及使用球諧係數基礎函數(亦稱作「球諧係數」或SHC，「高階高保真立體混響聲」或HOA，及「HOA係數」)來表示聲場。MPEG-H編碼器經更詳細地描述於MPEG-H 3D音訊-用於寫碼沉浸式空間音訊之新標準(Jürgen Herre、Senior Member、IEEE、Johannes Hilpert、Achim Kuntz及Jan Plogsties，IEEE信號處理選題期刊(JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING)第9卷第5期，2015年8月)(本文中亦稱作「IEEE論文」)中。

新MPEG-H 3D音訊提供關於基於頻道、對象及場景之音訊串流中之每一者之標準化音訊位元串流，及後續解碼，該解碼自適應且對揚聲器幾何結構(及揚聲器之數目)及播放之位置處之聲學條件(涉及再現器)不可知。

如IEEE論文中指出，HOA提供更多係數信號且因此增加空間選擇性，此允許揚聲器信號經再現具有以較少串擾，從而造成減少音色偽影。與對象相反，HOA中之空間資訊未在明確幾何後設資料中傳遞，但在係數信號自身中傳遞。因此，高保真立體混響聲/HOA並不充分適於允許存取聲音場景中之個別對象。然而，內容創建者存在更多靈活性，使用階層式要素集來表示聲場。階層式要素集可為指其中要素經排序使得基本較低排序要素集提供模製聲場之完整表示的要素集。隨著該集經擴展以包括較高階要素，表示變得更詳細，增加解析度。

階層式要素集之一項實例為球諧係數(SHC)集。以下表示使用SHC證實聲場之描述或表示：

表達展示在時間t處在聲場之任何點{r_r ,θ_r ,φ_r}處之壓力p_i可由SHC,

(k)唯一表示。此處，

，c為聲音速度(~343m/s)，{r_r ,θ_r ,φ_r}為參考點(或觀察點)，j_n(．)為n階球面貝塞爾函數，且

(θ_r ,φ_r)為n階及m子階之球諧基礎函數。可認識到，方括弧中的術語為信號(亦即，S(ω,r_r ,θ_r ,φ_r))之頻域表示，其可由各種時間-頻率變換估計，諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)，或小波變換。階層集之其他實例包括小波變換係數集及多解析度基礎函數之其他係數集。

本發明之技術可用於輸送音訊資料，該音訊資料使用串流化協定(諸如經由HTPP之動態自適性串流(DASH))如上文所論述編碼。ISODASH之各種態樣經描述於(例如)「資訊技術-經由HTPP之動態自適性串流(DASH)-第1部分：媒體呈現描述及區段格式，」ISO/IEC 23009-1，2012年4月1日；及第3代合作夥伴計劃；技術規範群組服務及系統態樣；透明端至端封包交換串流服務(PSS)；漸進下載及經由HTPP之動態自適性串流(3GP-DASH)(版本12)3GPP TS 26.247，V12.1.0，2013年12月。

在HTTP串流中，頻繁使用之操作包括HEAD、GET及部分GET。HEAD操作擷取與給定統一資源定位符(URL)或統一資源名稱(URN)相關聯之檔案之標頭，而非擷取與URL或URN相關聯之有效負載。GET操作擷取與給定URL或URN相關聯之整個檔案。部分GET操作接收位元組範圍作為輸入參數及擷取檔案之多個連續位元組，其中該多個位元組對應於所接收之位元組範圍。因此，影片片段可經提供用於HTTP串流，此係因為部分GET操作可獲得一或多個個別影片片段。在影片片段中，可存在不同音軌之數個音軌片段。在HTTP串流中，媒體呈現可為可由用戶端存取之結構化資料集合。用戶端可請求並下載媒體資料資訊以向使用者呈現串流服務。

在使用HTTP串流來串流化音訊資料之實例中，可存在用於多媒體內容之視訊及/或音訊資料之多個表示。

如下文所闡釋，不同表示可對應於不同形式之HOA(例如，基於場景之音訊)之縮放寫碼。

此等表示之資訊清單可定義於媒體呈現描述(MPD)資料結構中。媒體呈現可對應於可由HTTP串流用戶端器件存取之結構化資料集合。 HTTP串流用戶端器件可請求並下載媒體資料資訊以向用戶端器件之使用者呈現串流服務。媒體呈現可經描述於MPD資料結構中，該MPD資料結構可包括MPD之更新。

媒體呈現可含有一系列一或多個週期。週期可由MPD中之Period要素定義。每一週期可在MPD中具有屬性start。MPD可包括關於每一週期之start屬性及availabilityStartTime屬性。對於直播服務，週期之start屬性與MPD屬性availabilityStartTime的總和可規定呈UTC格式之週期之可用時間，特定而言，對應週期中之每一表示之第一媒體區段。對於選播服務，第一週期之start屬性可為0。對於任一其他週期，start屬性可規定對應Period之開始時間相對於第一Period之開始時間之間的時間偏移。每一週期可延伸直至下一Period之開始為止，或直至媒體呈現之結束(在最後週期之狀況下)為止。週期開始時間可為精確的。其可反映播放所有之前週期之媒體所產生之實際時間。

每一週期可含有相同媒體內容之一或多個表示。表示可為音訊或視訊資料之多個替代經編碼版本中之一者。表示可因編碼類型(例如，因視訊資料之位元速率、解析度及/或編解碼器及音訊資料之位元速率、語言及/或編解碼器)而不同。術語表示可用於係指對應於多媒體內容之特定週期且以特定方式編碼之經編碼音訊或視訊資料之段。

特定週期之表示可經指派至由MPD中指示表示所屬於之自適應集合的屬性所指示的群組。通常將相同自適應集合中之表示認為係彼此之替代方案，此係因為用戶端器件可在此等表示之間動態且無縫地交換(例如)以執行頻寬自適應。舉例而言，可將特定週期之視訊資料之每一表示指派至相同自適應集合，使得表示中之任一者可經選擇以用於進行解碼以在對應週期內呈現多媒體內容之媒體資料(諸如，視訊資料或音訊資料)。作為另一實例，音訊自適應集之表示可包括以不同位元速率編碼以支援頻寬自適應的相同類型之音訊資料。在一些實例中，一個週期內之媒體內容可由來自群組0(若存在)之一個表示或來自每一非零群組之至多一個表示之組合來表示。週期之每一表示之計時資料可相對於週期之開始時間表達。

表示可包括一或多個區段。每一表示可包括初始化區段，或表示之每一區段可自初始化。當存在時，初始化區段可含有關於存取表示之初始化資訊。通常，初始化區段不含有媒體資料。區段可由識別符(諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源識別符(URI))獨特地指代。MPD可為每一區段提供識別符。在一些實例中，MPD亦可提供呈範圍屬性形式之位元組範圍，該屬性可對應於可由URL、URN或URI存取之檔案內之區段之資料。

不同表示可經選擇以用於對不同類型之媒體資料之實質上同時擷取。舉例而言，用戶端器件可選擇自其擷取區段之音訊表示、視訊表示及定時文字表示。在一些實例中，用戶端器件可選擇特定自適應集合以用於執行頻寬自適應。亦即，用戶端器件可選擇包括視訊表示之視訊自適應集合、包括音訊表示之自適應集合及/或包括定時文字之自適應集合。

本發明之技術可用於將媒體(例如，3D音訊)資料多工至(例如)MPEG-2系統，經描述於「資訊技術-動畫及相關聯音訊資訊之同屬編碼-第1部分：系統」，ISO/IEC 13818-1：2013(亦為ISO/IEC 13818-1：2015)(亦稱作「MPEG-2系統」或「系統」)。系統規範描述具有存取單元之串流/音軌，每一者具有時間戳記。存取單元經多工且通常存在關於可如何執行此多工之某一靈活性。MPEG-H音訊准許將所有對象之樣本放置在一個串流中，例如，可將具有相同時間碼之所有樣本映射至一個存取單元中。在系統層級，可能產生一個主串流及多個補充串流，該等補充串流允許將對象分成不同系統串流。系統串流創建靈活性：其允許不同遞送路徑，混合遞送、根本不遞送一個，及類似者。

可根據ISO基本媒體檔案格式(BMFF)(經描述於例如「資訊技術-視聽對象之寫碼-第12部分：ISO基本媒體檔案格式」，ISO/IEC 14496-12：2012)形成包括媒體資料(例如，音訊及/或視訊資料)之檔案。在ISO BMFF中，串流為音軌-存取單元經含在影片資料(mdat)方塊中。每一音軌在影片標頭中獲得樣本項及可實體找到描述樣本之樣本表。分佈式儲存亦可能藉由使用影片片段。

在MPEG-2輸送串流(TS)中，串流為基本串流。MPEG-2 TS中存在較少靈活性，但通常技術類似於ISO BMFF。在MPEG-2 TS中，每一基本串流可對應於具有節目識別符(PID)之節目。

儘管含有媒體資料(例如，經編碼3D音訊資料)之檔案可為根據上文所論述之各種技術中之任一者形成，但本發明描述關於ISO BMFF/檔案格式之技術。

一般而言，檔案可含有經編碼媒體資料，諸如經編碼3D音訊資料。在DASH中，此等檔案可被稱作表示之「區段」，如上文所論述。此外，內容提供者可使用各種自適應集提供媒體內容，如上文所述。關於3D音訊資料，可在一個自適應集中提供場景音訊資料。此自適應集可包括場景音訊資料之各種可交換(亦即，替代)表示(例如，彼此在位元速率方面不同，但在其他方面實質上相同)。類似地，音訊對象可各自被提供在各別自適應集中。替代地，自適應集可包括多個音訊對象，及/或一或多個音訊對象可被提供在多個自適應集中。

根據本發明之某些技術，器件可包括用於自複數個不同音訊串流解碼音訊資料的單個音訊解碼器。舉例而言，音訊串流可包括音樂及音效(M&E)串流、一或多個對話串流及一或多個註釋串流。可以不同語言(例如，英文、法文、德文、西班牙文等)獲得一或多個對話及註釋串流。因此，可基於語言之使用者偏好而作出選擇。如下文更詳細闡釋，音訊串流中之每一者可對應於各別部分自適應集(亦被稱作「部分AS」)。部分自適應集可通常包括無法單獨自部分自適應集解碼之資料；替代地，為可解碼，用戶端器件可獲得關於部分自適應集(例如，一個M&E串流、一個對話串流及一個註釋串流)之組合的資料。部分自適應集之組合可為可解碼的。舉例而言，初始化資料可在M&E串流中，而非在對話及/或註釋串流中實施。本發明提供用於發信與音訊串流之組合之選擇有關之資料的各種技術，以及藉以用戶端器件可使用資料來選擇音訊串流之組合的技術。

一般而言，可完全呈現之音訊呈現可對應於可向使用者呈現之一或多個完整或部分自適應集。舉例而言，可完全可呈現音訊呈現可對應於音樂及音效自適應集，及/或特定語言之對話自適應集。可完全呈現音訊表示可包括解碼及再現其音訊資料所需要之所有資料。在一些例項中，自適應集可取決於一或多個其他自適應集。舉例而言，若存取、解碼或再現自適應集需要其他自適應集，則自適應集可取決於另一自適應集。在一些實例中，單個自適應集可表示可完全呈現音訊呈現，且可經進一步指派特定識別符。並非可完全呈現音訊呈現之自適應集可包括對自適應集取決於之自適應集之特定識別符之參考。

根據本發明之某些技術，(例如)經由DASH發送及接收媒體資料之器件可將一或多個與編解碼器無關模型用於與DASH及/或進階型電視系統委員會(ATSC)(及/或其他系統標準)整合的下一世代音訊(NGA)編解碼器。下文更詳細係描述此等模型之實例。

圖1為說明實施用於經由無線(OTA)廣播串流媒體資料之技術之一實例系統10的方塊圖。在此實例中，系統10包括內容準備器件20、廣播源器件60、廣播單元74及用戶端器件40。廣播源器件60可包含(例如)電視網路局、有線電視局或類似者。廣播單元74可包含(例如)衛星、有線電視分佈集線器、天線或類似者。儘管在圖1之實例中僅展示單個廣播單元74，但應理解，多個中間器件可定位於廣播源器件60與用戶端器件40之間。在一些實例中，內容準備器件20及廣播源器件60可由基於電腦之網路耦接或可直接通信耦接。替代地，內容準備器件20可經由電腦可讀儲存媒體(諸如，硬碟、快閃磁碟機、CD、DVD、藍光光碟或類似者)將多媒體內容供應至廣播源器件60。在一些實例中，內容準備器件20及廣播源器件60可包含相同器件。

在圖1之實例中，內容準備器件20包含音訊源22及視訊源24。音訊源22可包含(例如)麥克風，該麥克風產生表示將由音訊編碼器26編碼之所擷取音訊資料的電信號。替代地，音訊源22可包含儲存先前所記錄音訊資料之儲存媒體、諸如電腦化合成器之音訊資料產生器或任一其他音訊資料源。視訊源24可包含產生將由視訊編碼器28編碼之視訊資料的視訊攝影機、編碼有先前所記錄視訊資料之儲存媒體、諸如電腦圖形來源之視訊資料產生單元或任一其他視訊資料源。內容準備器件20不必在所有實例中通信耦接至廣播源器件60，而可將多媒體內容儲存至由廣播源器件60讀取之單獨媒體。

原始音訊及視訊資料可包含類比或數位資料。類比資料可在由音訊編碼器26及/或視訊編碼器28編碼之前經數位化。音訊源22可在發言參與者正在發言時自該發言參與者獲得音訊資料，且視訊源24可同時獲得發言參與者之視訊資料。在其他實例中，音訊源22可包含電腦可讀儲存媒體，該電腦可讀儲存媒體包含所儲存音訊資料，且視訊源24可包含電腦可讀儲存媒體，該電腦可讀儲存媒體包含所儲存視訊資料。以此方式，本發明中所描述之技術可應用於直播、串流、即時音訊及視訊資料或應用於經歸檔、預記錄音訊及視訊資料。

對應於視訊訊框之音訊訊框通常為含有與含在視訊訊框內之由視訊源24擷取(或產生)之視訊資料同時地由音訊源22擷取(或產生)之音訊資料的訊框。舉例而言，在發言參與者通常藉由發言來產生音訊資料時，音訊源22擷取音訊資料，且視訊源24同時(亦即，在音訊源22正擷取音訊資料時)擷取發言參與者之視訊資料。因此，音訊訊框可在時間上對應於一或多個特定視訊訊框。因此，對應於視訊訊框之音訊訊框通常對應於同時擷取(或同時以其他方式呈現)音訊資料及視訊資料且音訊訊框及視訊訊框分別包含同時擷取之音訊資料及視訊資料的情況。另外，可單獨產生音訊資料，該音訊資料將與視訊及其他音訊資料(例如，旁白)同時呈現。

在一些實例中，音訊編碼器26可在每一經編碼音訊訊框中編碼表示記錄該經編碼音訊訊框之音訊資料之時間的時間戳記，且類似地，視訊編碼器28可在每一經編碼視訊訊框中編碼表示記錄該經編碼視訊訊框之視訊資料之時間的時間戳記。在此等實例中，對應於視訊訊框之音訊訊框可包含包含時間戳記之音訊訊框及包含相同時間戳記之視訊訊框。內容準備器件20可包括音訊編碼器26及/或視訊編碼器28可自其產生時間戳記或音訊源22及視訊源24可使用來使音訊資料及視訊資料分別與時間戳記相關聯的內時鐘。

在一些實例中，音訊源22可將資料發送至對應於記錄音訊資料之時間的音訊編碼器26，且視訊源24可將資料發送至對應於記錄視訊資料之時間的視訊編碼器28。在一些實例中，音訊編碼器26可在經編碼音訊資料中編碼順序識別符以指示經編碼音訊資料之相對時間次序但未必指示記錄音訊資料之絕對時間，且類似地，視訊編碼器28亦可使用順序識別符來指示經編碼視訊資料之相對時間次序。類似地，在一些實例中，可映射順序識別符或以其他方式使其與時間戳記相關。

音訊編碼器26通常產生經編碼音訊資料之串流，而視訊編碼器28產生經編碼視訊資料之串流。每一個別資料(音訊抑或視訊)串流可被稱作基本串流。基本串流為一表示之單個經數位編碼(可能經壓縮)之成分。舉例而言，表示之經編碼視訊或音訊部分可為基本串流。基本串流可在經囊封於視訊檔案中之前經轉換成封包化基本串流(PES)。在相同表示內，串流ID可用於將屬於一個基本串流之PES封包與另一者區分開。基本串流之基本資料單元為封包化基本串流(PES)封包。因此，經編碼視訊資料通常對應於基礎視訊串流。類似地，音訊資料對應於一或多個各別基本串流。

在圖1之實例中，內容準備器件20之囊封單元30接收包括來自視訊編碼器28之經編碼視訊資料之基本串流及包含來自音訊編碼器26之經編碼音訊資料之基本串流。在一些實例中，視訊編碼器28及音訊編碼器26可各自包括用於由經編碼資料形成PES封包的封包器。在其他實例中，視訊編碼器28及音訊編碼器26可各自與用於由經編碼資料形成PES封包之各別封包器介接。在其他實例中，囊封單元30可包括用於由經編碼之音訊及視訊資料形成PES封包的封包器。

視訊編碼器28可以各種方式對多媒體內容之視訊資料進行編碼以產生處於各種位元速率且具有諸如以下各項之各種特性之多媒體內容之不同表示：像素解析度、訊框速率、與各種編碼標準之符合性、與用於各種編碼標準之各種設定檔及/或設定檔之等級之符合性、具有一或多個視角之表示(例如，用於二維或三維播放)，或其他此類特性。類似地，音訊編碼器26可以具有各種特性之各種不同方式對音訊資料進行編碼。如下文更詳細論述，舉例而言，音訊編碼器26可形成各自包括基於場景音訊資料、基於頻道音訊資料及/或基於對象音訊資料中之一或多者之音訊自適應集。另外或在替代方案中，音訊編碼器26可形成包括可縮放音訊資料之自適應集。舉例而言，音訊編碼器26可形成關於基底層、左/右資訊及高度資訊之自適應集，如下文更詳細論述。

如本發明中所使用，表示可包含音訊資料、視訊資料、文字資料(例如，用於隱藏式輔助字幕)或其他此類資料中之一者。表示可包括基本串流，諸如音訊基本串流或視訊基本串流。每一PES封包可包括識別PES封包所屬於之基本串流的stream_id。囊封單元30負責將基本串流組譯至各種表示之視訊檔案(例如，區段)中。

囊封單元30接收來自音訊編碼器26及視訊編碼器28之表示之基本串流之PES封包且由該等PES封包形成對應網路抽象層(NAL)單元。

囊封單元30可將關於多媒體內容之一或多個表示之資料連同資訊清單檔案(例如，MPD)提供至輸出介面32。輸出介面32可包含網路介面或用於寫入至儲存媒體之介面，諸如通用串列匯流排(USB)介面、CD或DVD寫入器或燒錄機、通至磁性或快閃儲存媒體之介面，或用於儲存或傳輸媒體資料之其他介面。囊封單元30可將多媒體內容之表示中之每一者之資料提供至輸出介面32，該輸出介面可經由網路傳輸或儲存媒體將資料發送至廣播源器件60。在圖1之實例中，廣播源器件60包括儲存各種多媒體內容64之儲存媒體62，每一多媒體內容包括各別資訊清單檔案66及一或多個表示68A至68N(表示68)。在一些實例中，輸出介面32亦可將資料直接發送至網路74。

在一些實例中，可將表示68分成自適應集合。亦即，表示68之各種子集可包括各別共同特性集，諸如編解碼器、設定檔及等級、解析度、視圖之數目、區段之檔案格式、可識別待與將(例如)藉由揚聲器解碼及呈現之表示及/或音訊資料一起顯示之文字之語言或其他特性之文字類型資訊、可描述自適應集合中之表示之場景之相機角度或真實相機視角的相機角度資訊、描述對特定觀眾之內容適用性的評級資訊，或類似者。

資訊清單檔案66可包括指示對應於特定自適應集合之表示68之子集之資料，以及自適應集合之共同特性。資訊清單檔案66亦可包括表示自適應集合之個別表示之個別特性(諸如位元速率)之資料。以此方式，自適應集合可提供簡化之網路頻寬自適應。可使用資訊清單檔案66之自適應集合要素之子要素來指示自適應集合中之表示。

廣播源器件60包括輸出介面72。廣播源器件60經由輸出介面72將多媒體內容提供至廣播單元74。

如圖1之實例中所說明，多媒體內容64包括可對應於媒體呈現描述(MPD)之資訊清單檔案66。資訊清單檔案66可含有對不同替代表示68(例如，具有不同品質之視訊服務)之描述且描述可包括(例如)編解碼器資訊、設定檔值、等級值、位元速率及表示68之其他描述特性。用戶端器件40可擷取媒體呈現之MPD以判定如何存取表示68之區段。

特定而言，接收單元52可包括OTA廣播中間軟體單元及媒體播放器用戶端。OTA廣播中間軟體單元可充當媒體播放器用戶端之代理伺服器，其可經組態以經由網路協定(例如，根據經由HTPP之動態自適性串流(DASH))擷取媒體資料。亦即，媒體用戶端可包含DASH用戶端。因此，媒體用戶端可擷取用戶端器件40之組態資料(未展示)以判定視訊解碼器48之解碼能力及視訊輸出44之再現能力。組態資料亦可包括由用戶端器件40之使用者選擇之語言偏好、對應於由用戶端器件40之使用者設定之深度偏好之一或多個相機視角，及/或由用戶端器件40之使用者選擇之評級偏好中之任一者或全部。媒體用戶端可經組態以將HTTP GET及部分GET請求提交至OTA廣播中間軟體單元。接收單元52之某些態樣可經實施為由用戶端器件40之一或多個處理器或處理單元(未展示)執行之軟體指令。亦即，關於接收單元52所描述之功能性之部分可以硬體或硬體、軟體及/或韌體之組合來實施，其中可提供必要硬體以執行軟體或韌體之指令。

接收單元52之媒體播放器用戶端可比較用戶端器件40之解碼及再現能力與由資訊清單檔案66之資訊指示之表示68的特性。媒體播放器用戶端可最初擷取資訊清單檔案66之至少一部分以判定表示68之特性。舉例而言，媒體播放器用戶端可請求資訊清單檔案66之描述一或多個自適應集合之特性之部分。媒體播放器用戶端可選擇具有可由用戶端器件40之編碼及再現能力滿足之特性的表示68(例如，自適應集合)之子集。媒體播放器用戶端可接著判定自適應集合中之表示之位元速率，判定網路頻寬之當前可用量及自具有可由網路頻寬滿足之位元速率之表示中之一者擷取區段。

如上文所述，接收單元52可包括OTA廣播中間軟體單元OTA廣播中間軟體單元可經組態以接收(例如)根據ATSC之OTA廣播信號。此外，OTA廣播中間軟體單元可實施網路代理伺服器，該網路代理伺服器本端快取所接收媒體資料且對來自接收單元52之媒體播放器用戶端之對資料的網路請求作出回應。

儘管此實例包括根據(例如)ATSC之OTA廣播，但在其他實例中，媒體資料可經由網路廣播(諸如增強式多媒體廣播多播服務(eMBMS))輸送。在此等實例中，媒體資料可經由基於電腦之網路(在此實例中未展示)由網路伺服器(其可通常對應於廣播源器件60)廣播或多播至用戶端器件40。網路可定位在伺服器器件與用戶端器件40之間，且可包括各種網路器件，諸如路由器、交換器、集線器、閘道器及類似者。此外，接收單元52可包括eMBMS中間軟體單元，替換OTA廣播中間軟體單元。eMBMS中間軟體單元可與此實例中所描述之OTA廣播中間軟體單元實質上相同地操作，惟除包括eMBMS接收單元替代如本文中所描述之OTA廣播接收單元。

接收單元52將所接收區段提供至解囊封單元50。解囊封單元50可將視訊檔案之要素解囊封成構成PES串流，將PES串流解封包以擷取經編碼資料，並將經編碼資料發送至音訊解碼器46或視訊解碼器48，此取決於經解碼資料係音訊串流抑或視訊串流之部分，例如，如由串流之PES封包標頭所指示。音訊解碼器46將經編碼音訊資料解碼並將經解碼音訊資料發送至音訊輸出42，而視訊解碼器48將經編碼視訊資料解碼並將經解碼視訊資料(其可包括串流之複數個視圖)發送視訊輸出44。

視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、接收單元52及解囊封單元50各自可實施為各種適合處理電路中之任一者(如可適用)，諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯電路、軟體、硬體、韌體或其任一組合。視頻編碼器28及視頻解碼器48中的每一者可包括在一或多個編碼器或解碼器中，其中的任一者可整合為組合式視頻編碼器/解碼器(CODEC)的部分。同樣地，音訊編碼器26及音訊解碼器46中之每一者可包括在一或多個編碼器或解碼器中，其中之任一者可整合為組合式CODEC之部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、接收單元52及/或解囊封單元50之裝置可包含積體電路、微處理器，及/或無線通信器件(諸如蜂巢式電話)。

用戶端器件40、廣播源器件60及/或內容準備器件20可經組態以根據本發明之技術操作。出於實例之目的，本發明描述關於用戶端器件40及廣播源器件60之此等技術。然而，應理解，替代廣播源器件60(或除其外)，內容準備器件20亦可經組態以執行此等技術。

囊封單元30可形成NAL單元，該等NAL單元包含識別NAL單元所屬於之節目之標頭以及有效負載(例如，音訊資料、視訊資料或描述NAL單元對應於之輸送或節目串流的資料)。舉例而言，在H.264/AVC中，NAL單元包括1位元組標頭及變化大小之有效負載。在其有效負載中包括視訊資料之NAL單元可包含各種細微性等級之視訊資料。舉例而言，NAL單元可包含視訊資料區塊、複數個區塊、視訊資料之圖塊，或視訊資料整個圖像。囊封單元30可接收來自視訊編碼器28之呈基本串流之PES封包形式之經編碼視訊資料。囊封單元30可使每一基本串流與對應程式相關聯。

囊封單元30亦可組譯來自複數個NAL單元之存取單元。一般而言，存取單元可包含用於表示視訊資料之訊框以及對應於該訊框之音訊資料(在此音訊資料可用時)的一或多個NAL單元。存取單元通常包括一個輸出時間例項之所有NAL單元，例如，一個時間例項之所有音訊及視訊資料。舉例而言，若每一視圖具有20個訊框/秒(fps)之訊框速率，則每一時間例項可對應於0.05秒之時間間隔。在此時間間隔期間，可同時再現相同存取單元(相同時間例項)之所有視圖之特定訊框。在一項實例中，存取單元可包含一個時間例項中之經編碼圖像，該經編碼圖像可呈現為主要經編碼圖像。

因此，存取單元可包含共同時間例項之所有音訊及視訊訊框，例如，對應於時間X之所有視圖。本發明亦將特定視圖之經編碼圖像稱作「視圖成分」。亦即，視圖成分可包含特定時間之特定視圖之經編碼圖像(或訊框)。因此，存取單元可定義為包含共同時間例項之所有視圖成分。存取單元之解碼次序未必需要與輸出或顯示次序相同。

媒體呈現可包括媒體呈現描述(MPD)，該媒體呈現描述可含有不同替代表示(例如，具有不同品質之視訊服務)之描述，且描述可包括(例如)編解碼器資訊、設定檔值及等級值。MPD係資訊清單檔案(諸如資訊清單檔案66)之一項實例。用戶端器件40可擷取媒體呈現之MPD以判定如何存取各種呈現之影片片段。影片片段可位於視訊檔案之影片片段方塊(moof方塊)中。

資訊清單檔案66(其可包含(例如)MPD)可通告表示68之區段之可用性。亦即，MPD可包括指示表示68中之一者之第一區段變得可用之掛鐘時間的資訊以及指示表示68內之區段之持續時間的資訊。以此方式，用戶端器件40之擷取單元52可基於在特定區段之前的區段之開始時間以及持續時間而判定每一區段可用之時間。

在囊封單元30已基於所接收資料將NAL單元及/或存取單元組譯至視訊檔案中之後，囊封單元30將視訊檔案傳遞至輸出介面32以進行輸出。在一些實例中，囊封單元30可本端儲存視訊檔案或經由輸出介面32將視訊檔案發送至遠端伺服器，而非將視訊檔案直接發送至用戶端器件40。輸出介面32可包含(例如)傳輸器、收發器、用於將資料寫入至(諸如例如)光學磁碟機、磁性媒體磁碟機(例如軟碟機)之電腦可讀媒體的器件、通用串列匯流排(USB)埠、網路介面或其他輸出介面。輸出介面32將視訊檔案輸出至電腦可讀媒體，諸如例如，傳輸信號、磁性媒體、光學媒體、記憶體、快閃磁碟機或其他電腦可讀媒體。

接收單元52從自廣播單元74接收之廣播信號提取NAL單元或存取單元並將NAL單元或存取單元提供至接收單元52，該接收單元可將NAL單元遞送至解囊封單元50。解囊封單元50可將視訊檔案之要素解囊封成構成PES串流，將PES串流解封包以擷取經編碼資料，並將經編碼資料發送至音訊解碼器46或視訊解碼器48，此取決於經解碼資料係音訊串流抑或視訊串流之部分，例如，如由串流之PES封包標頭所指示。音訊解碼器46將經編碼音訊資料解碼並將經解碼音訊資料發送至音訊輸出42，而視訊解碼器48將經編碼視訊資料解碼並將經解碼視訊資料(其可包括串流之複數個視圖)發送視訊輸出44。

儘管圖1之實例中未明確展示，但用戶端器件40可進一步包括媒體應用程式。該媒體應用程式可執行音訊解碼器46、視訊解碼器48、解囊封單元50，及/或接收單元52中之任一者之功能性之全部或部分。舉例而言。媒體應用程式可形成接收單元52之部分，或與接收單元52分離。除上文所描述之功能性外，媒體應用程式可使用戶端器件40向使用者呈現使用者介面(諸如，圖形使用者介面(GUI))以允許選擇多媒體資料(諸如，影片或其他節目內容)。媒體應用程式可將所選擇內容之指示提供至接收單元52以使接收單元52接收所選擇節目內容之媒體資料，如上文所論述。媒體應用程式可為獨立軟體。

圖2為更詳細說明圖1之接收單元52之一組實例組件的方塊圖。在此實例中，接收單元52包括OTA廣播中間軟體單元100、DASH用戶端110，及媒體應用程式112。

OTA廣播中間軟體單元100進一步包括OTA廣播接收單元106、快取記憶體104及代理伺服器102。在此實例中，OTA廣播接收單元106經組態以經由OT廣播(例如，經由進階型電視系統委員會(ATSC)廣播)接收資料。亦即，OTA廣播接收單元106可經由廣播自(例如，廣播源器件60)接收檔案。

隨著OTA廣播中間軟體單元100接收關於檔案之資料，OTA廣播中間軟體單元100可將所接收資料儲存在快取記憶體104中。快取記憶體104可包含電腦可讀儲存媒體，諸如快閃記憶體、硬碟、RAM，或任何其他適合儲存媒體。

代理伺服器102可充當DASH用戶端110之代理伺服器。舉例而言，代理伺服器102可將MPD檔案或其他資訊清單檔案提供至DASH用戶端110。代理伺服器102可通告MPD檔案中之區段之可用性時間，以及可自其擷取區段之超鏈結。此等超鏈結可包括對應於用戶端器件40之本端主機位址首碼(例如，針對IPv4之127.0.0.1)。以此方式，DASH用戶端110可使用HTTP GET或部分GET來自代理伺服器102請求區段。舉例而言，針對自連結http：//127.0.0.1/rep1/seg3可獲得之區段，DASH用戶端110可構造包括對http：//127.0.0.1/rep1/seg3之請求之HTTP GET請求，並將請求提交至代理伺服器102。代理伺服器102可自快取記憶體104擷取所請求資料且回應於此等請求將資料提供至DASH用戶端110。

在接收區段之後，DASH用戶端110可將區段之資料傳遞至媒體應用程式112。DASH用戶端110可處理區段(例如)以自區段提取媒體資料及/或摒棄由媒體應用程式112不可使用之資料。在一些實例中，DASH用戶端110可經實施為web瀏覽器之擴展，且媒體應用程式112可經實施為視訊及/或音樂播放應用程式。

圖3為說明實例多媒體內容120之要素的概念圖。多媒體內容120可對應於多媒體內容64(圖1)，或儲存於儲存媒體62中之另一多媒體內容。在圖3之實例中，多媒體內容120包括媒體呈現描述(MPD)122及複數個表示124A至124N(表示124)。表示124A包括選用標頭資料126及區段128A至128N(區段128)，而表示124N包括選用標頭資料130及區段132A至132N(區段132)。為方便起見，使用字母N來指定表示124中之每一者中之最後影片片段。在一些實例中，表示124之間可存在不同數目個影片片段。

MPD 122可包含與表示124分離之資料結構。MPD 122可對應於圖1之資訊清單檔案66。同樣地，表示124可對應於圖2之表示68。一般而言，MPD 122可包括大體描述表示124之特性(諸如編碼及再現特性)之資料、自適應集合、MPD 122對應之設定檔、文字類型資訊、相機角度資訊、評級資訊、竅門模式(trick mode)資訊(例如指示包括時間子序列之表示的資訊)，及/或關於擷取遠端週期的資訊(例如，播放期間至媒體內容中之目標廣告插入)。

標頭資料126(當存在時)可描述區段128之特性，例如，隨機存取點(RAP，亦稱作串流存取點(SAP))之時間位置，區段128之隨機存取點包括隨機存取點、區段128內之至隨機存取點之位元組偏移、區段128之統一資源定位符(URL)，或區段128之其他態樣。標頭資料130(當存在時)可描述區段132之類似特性。另外或替代地，此等特性可完全包括在MPD 122內。

區段128、132包括一或多個經寫碼媒體樣本。區段128之經編碼媒體樣本中之每一者可具有類似特性，例如，語言(若包括演講)、位置、CODEC及頻寬要求。此等特性可由MPD 122之資料描述，但此資料並未在圖3之實例中說明。MPD 122可包括如由3GPP規範描述之特性，外加本發明中所描述之發信資訊之任何者或全部。

區段128、132中之每一者可與獨特統一資源定位符(URL)相關聯。因此，可使用串流網路協定(諸如DASH)來獨立地擷取區段128、132中之每一者。以此方式，目的地器件(諸如，用戶端器件40)可使用HTTP GET請求來擷取區段128或132。在一些實例中，用戶端器件40可使用HTTP部分GET請求來擷取區段128或132之特定位元組範圍。

圖4係說明可對應於表示之區段(諸如圖3之區段128、132中之一者)之實例媒體檔案150之要素的方塊圖。區段128、132中之每一者可包括實質上符合於圖4之實例中所說明之資料之配置的資料。可認為媒體檔案150囊封區段。如上文所描述，根據ISO基本媒體檔案格式及其延伸之視訊檔案將資料儲存於一系列稱作「方塊」之對象中。在圖4之實例中，媒體檔案150包括檔案類型(FTYP)方塊152、影片(MOOV)方塊154、區段索引(sidx)方塊162、影片片段(MOOF)方塊164及影片片段隨機存取(MFRA)方塊166。儘管圖4表示視訊檔案之實例，但應理解，根據ISO基本媒體檔案格式及其延伸，其他媒體檔案可包括類似於媒體檔案150之資料結構化之其他類型之媒體資料(例如，音訊資料、定時文字資料或類似者)。

檔案類型(FTYP)方塊152通常描述媒體檔案150之檔案類型。檔案類型方塊152可包括識別描述媒體檔案150之最佳使用之規範的資料。檔案類型方塊152可替代地放置在MOOV方塊154、影片片段方塊164及/或MFRA方塊166之前。

在圖4之實例中，MOOV方塊154包括影片標頭(MVHD)方塊156、音軌(TRAK)方塊158及一或多個影片延伸(MVEX)方塊160。一般而言，MVHD方塊156可描述媒體檔案150之一般特性。舉例而言，MVHD方塊156可包括描述起初創建媒體檔案150之時間、最後修改媒體檔案150之時間、媒體檔案150之時幅、媒體檔案150之播放持續時間之資料，或大體描述媒體檔案150之其他資料。

TRAK方塊158可包括關於媒體檔案150之音軌之資料。TRAK方塊158可包括描述對應於TRAK方塊158之音軌之特性的音軌標頭(TKHD)方塊。在一些實例中，TRAK方塊158可包括經編碼視訊圖像，而在其他實例中，音軌之經編碼視訊圖像可包括在可由TRAK方塊158及/或sidx方塊162之資料所參考之影片片段164中。在一些實例中，音軌之音軌ID可表示媒體檔案150之可完整呈現音訊呈現。亦即，對應音軌可包括可完全呈現音訊呈現之音訊資料。替代地，節目識別符(PID)可識別對應於MPEG-2 TS中之基本串流(包括可完全呈現音訊呈現)之節目。

在一些實例中，媒體檔案150可包括一個以上音軌。因此，MOOV方塊154可包括等於媒體檔案150中之音軌之數目的數目個TRAK方塊。 TRAK方塊158可描述媒體檔案150之對應音軌之特性。舉例而言，TRAK方塊158可描述對應音軌之時間及/或空間資訊。在囊封單元30(圖3)在視訊檔案(諸如媒體檔案150)中包括參數集音軌時，類似於MOOV方塊154之TRAK方塊158之TRAK方塊可描述參數集音軌之特性。囊封單元30可在描述參數集音軌之TRAK方塊內發信序列層級SEI訊息存在於參數集音軌中。

除包括在MOOV方塊154(若存在)內之視訊資料外，MVEX方塊160可描述對應影片片段164之特性以(例如)發信媒體檔案150包括影片片段164。在串流視訊資料之內容脈絡中，經編碼視訊圖像可包括在影片片段164中而非MOOV方塊154中。因此，所有經編碼視訊樣本可包括在影片片段164中而非在MOOV方塊154中。

MOOV方塊154可包括等於媒體檔案150中之影片片段164之數目的數目個MVEX方塊160。MVEX方塊160中之每一者可描述影片片段164之對應者之特性。舉例而言，每一MVEX方塊可包括描述影片片段164中之對應者之時間持續時間的影片延伸標頭方塊(MEHD)方塊。

如上文所述，囊封單元30可將序列資料集儲存在不包括實際編碼視訊資料之視訊樣本中。視訊樣本可通常對應於存取單元，該存取單元係特定時間例項處之經編碼圖像之表示。在AVC之內容脈絡中，經編碼圖像包括含有用以建構存取單元之所有像素之資訊的一或多個VCL NAL單元，及諸如SEI訊息之其他相關聯非VCL NAL單元。因此，囊封單元30可在影片片段164中之一者中包括序列資料集(其可包括序列層級SEI訊息)。囊封單元30可進一步在對應於影片片段164中之一者之MVEX方塊160中之一者內將序列資料集及/或序列層級SEI訊息之存在發信為存在於影片片段164中。

SIDX方塊162係媒體檔案150之選用要素。亦即，符合於3GPP檔案格式或其他此等檔案格式之視訊檔案未必包括SIDX方塊162。根據3GPP檔案格式之實例，SIDX方塊可用於識別區段(例如，媒體檔案150內所含之區段)之子區段。3GPP檔案格式將子區段定義為「一或多個連續影片片段方塊及對應(多個)媒體資料方塊之獨立集合且含有影片片段方塊所參考之資料之媒體資料方塊必須在彼影片片段方塊之後且在含有關於相同音軌之資訊之下一影片片段方塊之前。」3GPP檔案格式亦指示SIDX方塊「含有對由該方塊文件加注之(子)區段之子區段之參考順序。所參考區段在呈現時間中係連續的。類似地，由區段索引方塊參考之位元組在區段內始終係連續的。所參考大小給出所參考材料中之位元組之數目之計數。」

SIDX方塊162通常提供表示媒體檔案150中所包括之區段之一或多個子區段的資訊。舉例而言，此資訊可包括子區段開始及/或結束之播放時間、子區段之位元組偏移、子區段是否包括串流存取點(SAP)(例如，以其開始)、SAP之類型(例如，SAP係瞬間解碼器再新(IDR)圖像、乾淨隨機存取(CRA)圖像、中斷連結存取(BLA)圖像抑或類似者)、SAP(依據播放時間及/或位元組偏移)在子區段中之位置，及類似者。

影片片段164可包括一或多個經編碼視訊圖像。在一些實例中，影片片段164可包括一或多個圖像群組(GOP)，該等圖像群組中之每一者可包括若干個經編碼視訊圖像，例如訊框或圖像。另外，如上文所描述，影片片段164在一些實例中可包括序列資料集。影片片段164中之每一者可包括影片片段標頭方塊(MFHD，圖4中未展示)。MFHD方塊可描述對應影片片段之特性，諸如影片片段之序號。影片片段164可以序號之次序包括在媒體檔案150中。

MFRA方塊166可描述媒體訊檔案150之影片片段164內之隨機存取點。此可輔助執行竅門模式，諸如執行對由媒體檔案150囊封之區段內之特定時間位置(亦即，播放時間)之尋求。在一些實例中，MFRA方塊166通常係選用的且不需要包括在視訊檔案中。同樣地，用戶端器件(諸如用戶端器件40)未必需要參考MFRA方塊166來正確地解碼並顯示媒體檔案150之視訊資料。MFRA方塊166可包括等於媒體檔案150之音軌之數目或(在一些實例中)等於媒體檔案150之媒體音軌之數目(例如，非提示音軌)的數目個音軌片段隨機存取(TFRA)方塊(未展示)。

在一些實例中，影片片段164可包括一或多個串流存取點(SAP)，諸如IDR圖像。同樣地，MFRA方塊166可提供SAP之媒體檔案150內之位置之指示。因此，媒體檔案150之時間子序列可由媒體檔案150之SAP形成。時間子序列亦可包括其他圖像，諸如取決於SAP之P訊框及/或B訊框。時間子序列之訊框及/或圖塊可經配置在區段內使得可恰當地解碼取決於子序列之其他訊框/圖塊的時間子序列之訊框/圖塊。舉例而言，在資料之階層配置中，用於對其他資料之預測之資料亦可包括在時間子序列中。

圖5為說明用於接收音訊資料之實例系統200的概念圖。系統200包括選擇單元222、系統層單元224、音訊解碼器226、音訊再現單元228、瀏覽器232，及使用者介面/代理230。在此實例中，所接收音訊資料可包括音樂及音效(M&E)串流204(其中附有系統後設資料202)、英文對話串流208(其中附有系統後設資料206)、德文對話串流212(其中附有系統後設資料210)、英文註釋串流216(其中附有系統後設資料214)及德文註釋串流220(其中附有系統後設資料218)中之任何者或全部。

一般而言，系統層單元224可實施用於接收所輸送媒體資料(諸如音訊資料)之MPEG-2系統之技術。因此，系統層單元224在此實例中接收系統後設資料202、206、210、214及218。系統層單元224可使用系統後設資料來存取對應串流之音訊資料。系統層單元224亦可判定網路能力(諸如廣播及/或寬頻是否可用)，及防止選擇僅在不可用網路上實施之串流。使用者介面/代理230可經由由系統層單元224提供之API傳遞選擇資料238以選擇M&E串流204、英文對話串流208、德文對話串流212、英文註釋串流216，及/或德文註釋串流220中之任何者或全部。另外或替代地，瀏覽器232可經由W3C源頻帶內媒體資源音軌將選擇236提供至系統層單元224。

系統層單元224將選擇資料240傳遞至選擇單元222。選擇單元222接收M&E串流204、英文對話串流208、德文對話串流212、英文註釋串流216，及/或德文註釋串流220中之任一者或全部之媒體資料。選擇單元222將音訊資料自所選擇串流傳遞至音訊解碼器226。舉例而言，若選擇資料240指示M&E串流204及英文對話串流208經選擇，則選擇單元222將音訊資料自M&E串流204及英文對話串流208傳遞至音訊解碼器226。

音訊解碼器226解碼自選擇單元222接收之音訊資料。音訊解碼器226將經解碼音訊資料242傳遞至音訊再現單元228。音訊再現單元228將經解碼音訊資料242混合在一起且將所再現音訊資料提供至音訊輸出，諸如一或多個揚聲器(未展示)。

歐洲電信標準協會(ETSI)文件「數位視訊廣播(DVB)；關於經由基於IP網路輸送ISO BMFFBased DVB服務之MPEG-DASH設定檔」(ETSI TS 103 285 V1.1.1(2015年5月))在6.1.2條款中描述某些DVB規則，包括：

˙每一音訊自適應集應包括使用如ISO/IEC 23009-1[1]中所定義之方案「urn：mpeg：dash：role：2011」之至少一個角色要素。

˙將經設定成「主要」之@value屬性用於音訊內容向播放器指示自適應集為內容提供者偏愛之音訊自適應集。

○若僅存在一個「主要」，則此自適應集接著為預設音訊自適應集。

○若在DASH呈現中存在多於一個音訊自適應集，則其中之至少一者應以經設定為「主要」之@value標記。然而，可能具有多個具有經設定成「主要」之@value的自適應集，其應有其他屬性(諸如@lang或@codec)區分。若多個自適應集具有經設定成「主要」之@value，則播放器將選擇此等自適應集中為最適於適用者，僅當所有此等不適當，則此播放器可選擇具有經設定成除「主要」外之事務的@value者。

˙若節目具有多個音訊自適應集，其具有相同編解碼器但具有經轉譯成不同語言之原始音軌(例如，原始西班牙文翻譯成英文之影片音軌)，則僅主要語言應具有經設定成「主要」之@value而所有其他語言經設定成「配音」。

○播放器應接著評估自適應集之@lang屬性以便確認音訊語言匹配使用者想要的配音語言。

○若節目具有多個音訊自適應集，其具有相同編解碼器但具有不同語言之不同原始音軌(例如，由多個評論員用多種語言評論之體育比賽)，則所有語言自適應集應具有經設定成「主要」之@value。播放器應接著評估自適應集之@lang屬性以便確認匹配使用者想要的語言之音訊語言。

˙若節目具有多個音訊自適應集，該等音訊自適應集具有多個編解碼器、相同原始聲及相同語言，但內容提供者不想要偏愛編解碼器，則其可將具有@value之多個自適應集設定成「主要」以使播放器選擇自適應集。

˙若需要設定多於一個角色，則應使用多個角色要素。如表4中所展示，角色及存取性描述符之組合使用應識別含有音訊描述及清晰音訊串流之自適應集。

˙針對接收器混合音訊描述，相關聯音訊串流應使用@dependencyId屬性來指示對相關自適應集之表示的相依性且因此亦指示相關聯音訊串流不應本身提供為表示。播放器應忽略具有其不理解之其他角色及存取性描述符屬性之音訊串流。

以下表包括來自MPEG-DASH ISO/IEC 23009-1：2014/Amendment 2之資料：

ISO/IEC 23009-1第5.8.5.7章節描述音訊接收器混合技術。更特定而言，此條款定義供EssentialProperty或SupplementaryProperty用於指示兩個音訊自適應集在播放之前需要由媒體引擎混合的方案。在此實例中，@schemeIdUri屬性識別方案為urn：mpeg：dash：audio-receiver-mix：2014。根據此章節，@value屬性應含有來自具有內容類型音訊屬性之自適應集之AdaptationSet@id的值，當前自適應集需要與該自適應集混合以便提供完整音訊體驗。接收器混合之實例為其中單個音訊自適應集提供音樂及音效-亦即，無對話之完整音訊體驗，其中一或多個其他自適應集以不同語言提供對話之狀況。在此狀況下，對話自適應集將取決於音樂及音效自適應集。混合要求為單向的。亦即，在選擇A時將表示A與表示B混合的要求並不暗示在選擇B之條件下需要混合兩者。

下文描述額外MPEG-DASH音訊參數。可在自適應集級上發信以下參數：@codecs、音訊頻道組態、編解碼器獨立寫碼點、頻道位置、編解碼器獨立寫碼點、採樣率及評級。此外，網路能力(僅廣播，及/或寬頻)可用於選擇及拒絕某些串流。針對所有狀況，可基於能力及偏好而針對系統級上之選擇/拒絕發信串流。

下文展示截止現在在媒體呈現描述(MPD)中發信之實例：

˙自適應集：@id=1；@codecs=mp4a.40.29

○Role(urn：mpeg：dash：role：2011，值=「補充」)

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙自適應集：@id=2；@lang=en；@codecs=mp4a.40.29

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙自適應集：@id=3；@lang=de；@codecs=mp4a.40.29

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○Role(urn：mpeg：dash：role：2011，值=「配音」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙自適應集：@id=4；@lang=en；@codecs=mp4a.40.29

○Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙自適應集：@id=5；@lang=de；@codecs=mp4a.40.29

○Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

下文描述根據MPEG-2系統及HTML-5之資料之實例。下文僅定義變化形式1，但亦可使用變化形式2a。

概言之，在舊型系統上，可存在大量發信。針對NGA編解碼器可減少或重新使用發信之可能區域包括針對系統級之某些能力實現選擇之現有原則之重新使用、映射至平台能力，及映射至簡單使用者介面/使用者代理(瀏覽器)。舊型系統缺少用於互動之工具，且NGA音訊可在音訊編解碼器層級內實現此互動。

圖6為根據本發明之某些技術說明可用於支援下一世代音訊資料之接收的諸多變化形式及選項之實例系統250的概念圖。大體而言，針對下一世代音訊資料，存在用以解碼所有音訊對象(或所有音訊串流)之單個解碼器。因此，系統250包括選擇單元272、系統層單元274、音訊解碼及呈現單元276、使用者介面278、使用者介面/代理280及瀏覽器282。

在此實例中，音樂及音效(M&E)串流254表示進入點音訊串流。M&E串流254包括用於所有呈現(例如，英文對話串流258、德文對話串流262、英文註釋串流266及德文註釋串流270中之每一者)之資料。

在DASH之狀況下，M&E串流254、英文對話串流258、德文對話串流262、英文註釋串流266及德文註釋串流270中之每一者可映射至各別自適應集。DASH MPD可包括系統發信資料。Amd.2及DVB DASH可包括DASH基線發信資料。系統層單元274可判定網路能力，從而考慮某些網路之可用性。系統270可實施於各種部署，諸如廣播及混合部署。

音訊解碼及呈現單元276可接收音訊串流後設資料253。音訊串流後設資料253可被包括在(例如)資訊清單檔案(諸如，DASH之媒體呈現描述(MPD)))中。最初，音訊解碼及呈現單元276可處理音訊串流後設資料253以判定哪些音訊串流可用。音訊解碼及呈現單元276可將可用性資料284提供至系統層單元274，其中可用性資料284基於音訊串流後設資料253指示哪些音訊資料集可用。在此實例中，可用音訊資料包括M&E串流254(附有系統後設資料252及音訊串流後設資料253)、英文對話串流258(附有系統後設資料256)、德文對話串流262(附有系統後設資料260)、英文註釋串流266(附有系統後設資料264)，及德文註釋串流270(附有系統後設資料268)。

系統層單元274可接收系統後設資料252、256、260、264及268。系統層單元274亦可將可用性資料提供至瀏覽器282及/或使用者介面/代理280，及自使用者(或使用者代理)接收選擇資料。

使用者可經由使用者介面278、使用者介面/代理280，及瀏覽器282與對應於系統250之器件互動。在一些實例中，使用者介面278、使用者介面/代理280及瀏覽器282中之任何者或全部可功能整合。在圖6之實例中，使用者介面/代理280可將選擇資料288提供至系統層單元274。另外或替代地，瀏覽器282可經由W3C源頻帶內媒體資源音軌將選擇資料286提供至系統層單元274。作為另一實例，瀏覽器282可向使用者呈現選擇資訊，且從使用者可經由使用者介面278回應於呈現而提供音訊內容之選擇，該使用者介面可將選擇資料292直接地轉發至音訊解碼及呈現單元276。一般而言，選擇資料指示選擇可用串流中之哪些用於擷取及播放。

在一些實例中，系統層單元274將選擇資料290提供至選擇單元272。選擇單元272繼而將音訊資料自所選擇音訊串流提供至音訊解碼及呈現單元276。音訊解碼及呈現單元276解碼並再現所選擇音訊資料以供在一或多個音訊輸出器件(例如，一或多個揚聲器(未展示))上播放。

以此方式，圖6之系統250表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖7為說明系統為中心之實例系統300的概念圖。在此實例中，系統300包括系統層單元324、選擇單元322、音訊解碼及呈現單元326，及使用者介面/代理330。在此實例中，系統層單元324基於提供有M&E串流304之音訊串流後設資料303且基於來自使用者介面/代理330之輸入332而自可用音訊資料選擇。音訊串流後設資料303可被包括在(例如)資訊清單檔案(諸如，DASH之MPD)中。

在此實例中，音訊解碼及呈現單元326接收音訊串流後設資料303。在此實例中，音訊串流後設資料303包括指示哪些音訊資料集可用之可用性資料。在此實例中，可用音訊資料包括M&E串流304(附有系統後設資料302及音訊串流後設資料303)、英文對話串流308(附有系統後設資料306)、德文對話串流312(附有系統後設資料310)、英文註釋串流316(附有系統後設資料314)，及德文註釋串流320(附有系統後設資料318)。

在此實例中，系統層單元324具有表示以下各項之資訊：音訊解碼及呈現單元326之解碼及再現能力、解碼及再現可用串流中之每一者所需要之能力、可用串流中之每一者之網路能力及遞送網路，及關於每一可用串流之後設資料(亦即，系統後設資料302、306、310、314、318)。根據此實例，系統層單元324基於網路能力而剪除可用串流、基於平台解碼及再現能力而剪除可用串流，及將表示剩餘可用串流之資訊提供至代理之使用者介面/代理330以供選擇。系統層單元324可基於串流之語言、串流之角色/可存取性及評級(例如，各種年齡群組之內容適合性)而自可用串流選擇。

在此實例中，系統層單元324將選擇資料334提供至選擇單元322。選擇單元322接收所選擇之串流之音訊資料並將音訊資料336轉發至音訊解碼及呈現單元326以供解碼及再現。替代地，系統層單元324可將選擇資料直接提供至音訊解碼及呈現單元326。

在替代實例中，每一媒體串流可為(例如)基於語言、評級及角色/可存取性而自我描述。系統層單元324可將對每一串流之描述提供至使用者介面/代理330以供串流之選擇。系統層單元324可選擇串流並將所選擇串流之資料轉發至音訊解碼及呈現單元326。

在此實例中，系統300可執行DASH間隙分析。DASH間隙分析可基於DVB及MPEG-DASH音訊後設資料。此實例可解決諸如以下問題：如何區分單個解碼器對多個解碼器供應項目；針對進入點之單個解碼器指示，是否需要定義如何起始之順序，描述用於再現媒體串流等級之相依性之工具的提供，用以在特定自適應集非主要自適應集之條件下避免選擇該自適應集之工具的提供，及使用品質排名來在不同AS中尋找匹配表示。各種自適應集之品質排名可通常表示自適應集之相對品質排名屬性，及/或自適應集中包括之表示。

在此實例中，系統層單元324可不包括未經獨立選擇之某些自適應集。在一項實例中，引入新要素，該新要素類似於自適應集，但包括自適應集相依性及單個編解碼器發信。在另一實例中，基本描述符與自適應集一起使用，其中基本描述符描述自適應集相依性及單個編解碼器發信。

此外，後設資料可描述關於自適應集之相依性資訊，該相依性資訊告知DASH用戶端在選擇相依自適應集時需要選擇哪些自適應集，所有自適應集包括使用相同編碼器編碼之媒體資料，及交遞至編解碼器之處理順序。此外，DASH MPD中之@qualityRanking屬性可用於支援針對每一自適應集選擇恰當表示。

下文提供於基本描述符及部分自適應集有關之發信之實例：基本描述符

˙AS：@id=1；

○EssentialProperty(不單獨呈現)

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙AS：@id=2；@lang=en

○EssentialProperty(呈現相依性，@value=1,2)

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙AS：@id=3；@lang=de

○EssentialProperty(呈現相依性，@value=1,3)

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○Role(urn：mpeg：dash：role：2011，值=「配音」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙AS：@id=4；@lang=en

○EssentialProperty(呈現相依性，@value=1,4)

○Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙AS：@id=5；@lang=de

○EssentialProperty(呈現相依性，@value=1,3,5,@id=「deutscher-kommentar」)

○EssentialProperty(呈現相依性，@value=1,5@id=「deutscher-kommentar」)

○Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=12

下文描述部分自適應性集實例：

˙PartialAS：@id=1；@present=FALSE

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙PartialAS：@id=2；@lang=en；@present=TRUE，@sequence=1,2

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=3；@lang=de；@present=TRUE，@sequence=1,3

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○Role(urn：mpeg：dash：role：2011，值=「配音」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=4；@lang=en；@present=TRUE，@sequence=1,4

○Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=5；@lang=de；@present=TRUE，@sequence=1,3,5

○Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

在另一替代方案中，系統後設資料302、306、310、314、318可描述各種呈現(其中呈現中之每一者對應於各種音訊對象/串流之組合中之一者)。系統層單元324可接著選擇一個呈現。在一項實例中，呈現可描述串流，且系統層單元324可基於所選擇呈現而選擇個別串流。在另一實例中，呈現可為抽象的，且系統層單元324可將所有串流轉發至選擇單元322。

作為一項實例，呈現可由內容作者提供。內容作者可定義限制組合集，諸如以下：

˙呈現1：M&E串流304，英文對話串流308

˙呈現2：M&E串流304，德文對話串流312

˙呈現3：M&E串流304，英文對話串流308，英文註釋串流316

˙呈現4：M&E串流304，德文對話串流312，德文註釋320

在此實例中，系統300可執行DASH間隙分析。此實例可解決諸如以下問題：如何區分單個解碼器對多個解碼器供應項目；針對進入點之單個解碼器指示，是否需要定義如何起始之順序，描述呈現之編譯之工具的提供，及用以在特定自適應集未經獨立選擇之條件下避免選擇該自適應集之工具的提供。

在一項實例中，可使用新呈現要素來收集呈現之後設資料及編譯。可將相依性資料用於自適應集以向DASH用戶端指示除所選擇自適應集外需要選擇哪些自適應集，所有自適應集包括使用相同編解碼器寫碼之媒體資料，及交遞至編解碼器之處理順序。

在一些實例中，可自呈現要素排除包括在待選擇之呈現中之所有自適應集。在一項實例中，在資訊清單檔案中發信通知基本上等效於自適應集但不包括用於音訊有關參數之發信的新要素。在另一實例中，基本描述符經提供有自適應集。在一些實例中，發信通知DASH MPD中之@qualityRanking屬性以支援針對每一自適應集選擇恰當表示。

以此方式，圖7之系統300表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖8為說明部分自適應集之呈現定義與實例之間的映射的概念圖。在此實例中，存在具有ID值1、2、3、4及5之四個部分自適應集。舉例而言，自適應集1可表示M&E串流，自適應集2可表示英文對話串流，自適應集3可表示德文對話串流，自適應集4可表示英文註釋串流，且自適應集5可表示德文對話串流。每一部分自適應集包括兩個各別表示，其中發信品質排名值(@qualityRanking)及頻寬值(@bandwidth)。

此外，在此實施例中，存在四個呈現，其中每一呈現表示部分自適應集中之一或多者之組合。第一呈現包括具有ID值1及2之部分自適應集。第二呈現包括具有ID值1及3之部分自適應集。第三呈現包括具有ID 值1及4之部分自適應集。第四呈現包括具有ID值1、3及5之部分自適應集。

圖9為說明使用系統層處理及HTML-5之另一實例系統350之概念圖。在此實例中，系統350包括選擇單元372、系統層單元374、音訊解碼及呈現單元376，及瀏覽器382。在此實例中，系統層單元374基於提供有M&E串流354之音訊串流後設資料353且基於來自瀏覽器382之輸入386而自可用音訊資料選擇。音訊串流後設資料353可被包括在(例如)資訊清單檔案(諸如，DASH之MPD)中。

在此實例中，音訊解碼及呈現單元376接收音訊串流後設資料353。在此實例中，音訊串流後設資料353包括指示哪些音訊資料集可用之可用性資料。在此實例中，可用音訊資料包括M&E串流354(附有系統後設資料352及音訊串流後設資料353)、英文對話串流358(附有系統後設資料356)、德文對話串流362(附有系統後設資料360)、英文註釋串流366(附有系統後設資料364)，及德文註釋串流370(附有系統後設資料368)。

圖9之實例類似於如上文所論述之圖7之實例，惟除系統層單元374包括網路能力且自web瀏覽器382接收輸入以輔助選擇可用音訊串流。如關於圖7之實例所描述之相同決策程序可用於圖9之實例。web瀏覽器382可將根據W3C源頻帶內媒體資源音軌將選擇資料386提供至系統層單元374。

一般而言，在一些實例中，上文關於圖7所論述之技術亦可由圖9之系統350執行，惟除系統層單元374可經組態以分解呈現並將其映射至HTML-5呈現。亦即，使用者可經由瀏覽器382提供表示所選擇音訊串流之輸入，該瀏覽器將選擇資料386發送至系統層單元374。系統層單元374 處理選擇資料386並將對應之選擇資料388發送至選擇單元372。選擇單元372接著使用選擇資料386來提取對應之所選擇音訊資料且將所選擇音訊資料390轉發至音訊解碼及呈現單元376。

以此方式，圖9之系統350表示用於接收音訊資料之器件之實例包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖10為說明使用系統層資訊及音訊解碼器之另一實例系統400的概念圖。在此實例中，系統400包括選擇單元422、系統層單元424、音訊解碼及呈現單元426、使用者介面428，及瀏覽器432。此實例亦類似於如上文所論述之圖7之實例，惟除系統層單元424與音訊解碼及呈現單元426互動以自可用音訊串流選擇。

在此實例中，音訊解碼及呈現單元426接收音訊串流後設資料403。音訊串流後設資料403可被包括在(例如)資訊清單檔案(諸如，DASH之MPD)中。在此實例中，音訊串流後設資料403包括指示哪些音訊資料集可用之可用性資料。在此實例中，可用音訊資料包括M&E串流404(附有系統後設資料402及音訊串流後設資料403)、英文對話串流408(附有系統後設資料406)、德文對話串流412(附有系統後設資料410)、英文註釋串流416(附有系統後設資料414)，及德文註釋串流420(附有系統後設資料418)。

在此實例中，系統層單元424具有表示每一媒體串流之網路能力及遞送網路及音訊解碼及再現單元426之解碼能力的資料。在此實例中，系統層單元424不需要處理某些後設資料。音訊解碼及再現單元426之音訊解碼單元經組態有表示其再現單元之再現能力之資訊，以及經指派至每一媒體串流之後設資料。此後設資料可比經定義用於系統層之習用後設資料更豐富得多。

此外，系統層單元424可經組態以基於網路能力及解碼能力而剪除可用串流。系統層單元424可接著將基於網路能力只是所有可用串流之資料440提供至音訊解碼及呈現單元426之音訊解碼單元。音訊解碼及呈現單元426之音訊解碼單元可接著將資料434發送至系統層單元424，該系統層單元指示需要(或不需要)哪些串流。系統層單元424可接著根據資料434取消選擇串流。此選擇可為動態的。

以此方式，圖10之系統400表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖11為說明實例資料集及@bundleID之值與經由各種類型之遞送網路之可用性之間的對應性的概念圖。在此實例中，@bundleID=1指示部分自適應集經由廣播可用，而@bundleID=2指示部分自適應集經由寬頻可用(例如，用於單播擷取)。在此實例中，具有@id值1及6之部分自適應集包括相同媒體分段及URL，但不同配置資訊。

圖11之實例中所使用之根據MPEG文件M37191之提議的資料包括：

此等資料要素可經指派如下值：

˙PartialAdaptationSet資料可發信通知不可能使用單個自適應集。

˙@bundleID可發信通知所有自適應集屬於一個單個解碼器

˙@isMain可提供至多個自適應集之進入點

˙@memberID可對所有自適應集註解使得其可由音訊解碼器引用。

˙注意，PartialAdaptationSet可為用於更佳混合支援之多個集束之成員。

圖11之實例中所展示之資料集為：

˙PartialAS：@id=1；@main=TRUE；@bundleID=1；@memberID=「ME」

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙PartialAS：@id=2；@bundleID=1；@memberID=「en-dialogue」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=3；@bundleID=1；@memberID=「de-dialog」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=4；@bundleID=1；@memberID=「motorway」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=5；@bundleID=1；@memberID=「autobahn」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

圖12為說明一組實例部分自適應集之資料網路可用性之實例的概念圖。圖12之實例經提供為圖11之實例之替代。

資料要素可如下使用：

˙PartialAdaptationSet可發信通知可能無法使用自適應集

˙@sequence值之部分可發信通知所有自適應集屬於一個單個解碼器

˙@sequence之第一值可提供至多個自適應集之進入點

˙注意：@bundleID(如上文關於圖11之實例所論述)除上述資料外亦可用於發信一個解碼器例項

圖12之實例中所展示之資料集為：

˙PartialAS：@id=1；@present=TRUE；@sequence=1,2,3,4,5；@memberID=「ME」

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙PartialAS：@id=2；@memberID=「en-dialogue」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=3；@memberID=「de-dialog」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=4；@memberID=「motorway」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=5；@memberID=「autobahn」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

圖13為根據本發明之技術說明使用各種選擇技術之另一實例系統450的概念圖。系統450之實例包括選擇單元472、系統層單元474、音訊解碼及呈現單元476、使用者介面478、使用者介面/代理480，及瀏覽器482。在此實例中，系統層單元474可自使用者介面/代理480(與系統層單元474相關聯)、web瀏覽器482及/或音訊解碼及呈現單元476之音訊解碼單元中之任一者或全部接收選擇資料。

在此實例中，音訊解碼及呈現單元476接收音訊串流後設資料453。音訊串流後設資料453可被包括在(例如)資訊清單檔案(諸如，DASH之MPD)中。在此實例中，音訊串流後設資料453包括指示哪些音訊資料集可用之可用性資料。在此實例中，可用音訊資料包括M&E串流454(附有系統後設資料452及音訊串流後設資料453)、英文對話串流458(附有系統後設資料456)、德文對話串流462(附有系統後設資料460)、英文註釋串流466(附有系統後設資料464)，及德文註釋串流470(附有系統後設資料468)。

根據圖13之實例，系統層單元474可具有表示以下各項之資料，網路能力及用於每一媒體串流之遞送網路、音訊解碼及呈現單元476之音訊解碼單元之能力，及諸如語言及可存取性之基礎系統後設資料。音訊解碼及呈現單元476之音訊解碼單元可具有表示音訊解碼及呈現單元476之音訊再現單元之能力的資料及經指派至每一媒體串流之後設資料。在此實例中，後設資料可比習用系統級後設資料豐富得多。

系統層單元474可基於網路能力、解碼能力及基礎系統後設資料而剪

除可用串流。系統層單元474可接著將表示基於網路能力及系統後設資料可用之剩餘串流之資料提供至音訊解碼及呈現單元476之音訊解碼單元。音訊解碼單元將資料484提供至系統層單元474，該系統層單元指示需要(或不需要)哪些串流。作為回應，系統層單元474可根據此資訊選擇或取消選擇串流。此選擇可為動態。此外，使用者介面/代理480可將額外選擇資訊488提供至系統層單元474，及/或瀏覽器482可將額外選擇資訊486提供至系統層單元474。音訊解碼及呈現單元476可使用自使用者介面478接收之選擇資訊492來判定需要或不需要哪些串流。最終，系統層單元474可將選擇資料490提供至選擇單元472，選擇單元可將所選擇串流轉發至音訊解碼及呈現單元476。

以下論述係關於用於圖13之實例之DASGH間隙分析：

˙複製資訊聽起來吸引人，但較複雜，因為需要理解如何複製、在選擇方面意味著什麼等等之細節。

˙選項包括：

○在系統級預選擇

￭不需要檢查細節

￭上文所論述之各種實例之組合可為可能的。

○複製使得接收器確實對實施有選擇。

￭不需要檢查細節

下文展示根據圖13之實例之實例資料集：

˙在系統級上之語言，在MPEG-H音訊解碼器中詳細選擇媒體串流

˙PartialAS：@id=1；@present=FALSE；@memberID=「ME」

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙PartialAS：@id=2；@lang=en；@present=FALSE；@memberID=「en-dialogue」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=3；@lang=de；@present=FALSE；@memberID=「de-dialog」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=4；@lang=en；@present=TRUE,@sequence=1,2,4；@memberID=「motorway」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=5；@lang=de；@present=TRUE,@sequence=1,3,5；@memberID=「autobahn」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

基於上文之實例資料集可由圖13之實例系統執行之處理步驟包括：

˙基於系統資訊，系統層單元474可在選擇英文之條件下選擇AS 1、2或4，或在選擇德文之條件下選擇AS 1、3或5。

˙音訊解碼及呈現單元476之音訊解碼單元若可能可將資料提供至系統層單元474，該系統層單元指示是否不應選擇特定音訊資料(諸如，註釋)，或系統層單元474是否可覆寫系統之選擇。

˙上述情形因此允許不同實施方案。

下文展示供用於具有系統選擇之混合系統之資料集之實例：˙PartialAS：@id=1；@present=FALSE；@sequence=1,2,3,4,5；@memberID=「ME」；

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙PartialAS：@id=6；@present=FALSE；@sequence=1,2；@memberID=「ME」

○表示1：@qualityRanking=2 @bandwidth=32

○表示2：@qualityRanking=1 @bandwidth=64

˙PartialAS：@id=2；@lang=en；@memberID=「en-dialogue」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=3；@lang=de；@bundleID=2；@memberID=「de-dialogue」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=4；@lang=en；@bundleID=2；@memberID=「motorway」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

˙PartialAS：@id=5；@lang=de；@bundleID=2；@memberID=「autobahn」

○表示1：@qualityRanking=2 @bandwidth=64

○表示2：@qualityRanking=1 @bandwidth=128

以此方式，本發明之技術可用於系統及音訊解碼器級上之諸多使用狀況。此等技術考慮發信及實施之不同態樣，諸如系統及音訊編解碼器選擇及網路能力，廣播及混合兩者。

根據本發明之技術之一個實例解決方案可包括如下文所展示之資料：

此等資料要素之值可如下設定：

PartialAdaptationSet可發信通知可能無法使用自適應集。

@sequence要素之部分可發信通知所有自適應集屬於一單個解碼器

@sequence之第一值可提供至多個自適應集之進入點

@memberID之值可對所有自適應集註解使得其可由音訊解碼器引用。

@bundleID之值可用於發信通知一個解碼器例項，如上文所論述。

以此方式，圖13之系統450表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合 MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖14為說明使用系統層資料及音訊解碼器之根據本發明之技術的另一實例系統750的概念圖。亦即，系統750包括選擇單元772、系統層單元774、音訊串流後設資料處理單元780、音訊解碼及呈現單元776、使用者介面778及瀏覽器782。

在此實例中，音訊串流後設資料處理單元780接收音訊串流後設資料753。音訊串流後設資料753可包括在(例如)資訊清單檔案(諸如，DASH之MPD)中。在此實例中，音訊串流後設資料753包括指示哪些音訊資料集可用之可用性資料。在此實例中，可用音訊資料包括M&E串流754(附有系統後設資料752及音訊串流後設資料753)、英文對話串流758(附有系統後設資料756)、德文對話串流762(附有系統後設資料760)、英文註釋串流766(附有系統後設資料764)，及德文註釋串流770(附有系統後設資料768)。

圖14之實例表示圖13之實例之替代方案。特定而言，在圖14之實例中，音訊串流後設資料處理單元780與系統層單元774互動(而非如圖13中所展示音訊解碼器及再現器與系統層單元互動)，且潛在地基於選擇資料792將資料784提供至系統層單元774以供剪除可用媒體串流。系統層單元 774將選擇資料790提供至選擇單元772，選擇單元將所選擇串流之資料轉發至音訊串流後設資料處理單元780。音訊串流後設資料處理單元780繼而將媒體資料796提供至音訊解碼及呈現單元776。

圖15至圖17為根據本發明之技術說明實例音訊資料模型的概念圖。一般而言，圖15至圖17之音訊資料模型符合以下特性：

˙音訊集束：由單一下一世代音訊(NGA)解碼器例項消耗之一組串流(對象/自適應集)

○在系統級上相關

˙預選擇：可選擇並提供有用呈現之來自一個集束之多個串流

○在系統級上最相關

˙主要串流：含有使用於整個集束之解碼器自舉啟動之解碼器特定資訊(音訊後設資料)的串流

○在音訊編解碼級上最相關

˙實施發信及實現靈活性

以此方式，圖14之系統750表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖15說明實例系統500，其包括預選擇單元514、NGA音訊解碼器520及使用者介面516。NGA音訊解碼器520包括NGA處理器522及音訊解碼及呈現單元524。在圖15之實例中，NGA音訊解碼器520及預選擇單元514接收音訊串流後設資料502連同音樂及音效(M&E)媒體串流504。音訊串流後設資料502可被包括在(例如)資訊清單檔案，諸如DASH之MPD。在此實例中，將每一音訊對象提供於單個不同串流中。因此，將M&E串流504、英文對話串流506、德文對話串流508、英文註釋串流510及德文註釋串流512中之每一者提供於不同串流中。在此實例中，NGA音訊解碼器520基於經由使用者介面516所接收之輸入528而判定擷取哪些串流。預選擇單元514基於由NGA音訊解碼器520提供之回饋而判定串流中之哪些包括所請求音訊資料(例如，用於對話之語言，且視需要，用於註釋之語言)，該NGA音訊解碼器處理經由使用者介面516接收之使用者選擇528。特定而言，NGA處理器522處理使用者選擇528，將所選擇音訊串流自所接收音訊資料526轉發至音訊解碼及呈現單元524，及音訊解碼及呈現單元524解碼並再現所選擇音訊串流之音訊資料。

以此方式，圖15之系統500表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖16說明實例系統530，其包括預選擇單元544、NGA音訊解碼器550及使用者介面546。NGA音訊解碼器550包括NGA處理器552及音訊解碼及呈現單元554。在圖16之實例中，NGA音訊解碼器550及預選擇單元544接收音訊串流後設資料532連同音樂及音效(M&E)媒體串流534。音訊串流後設資料532可被包括在(例如)資訊清單檔案，諸如DASH之MPD。

在圖16中之實例中，可將多個對象提供在單個串流中。特定而言，在此實例中，將M&E串流534及英文對話536提供於單個媒體串流535，且將其他音訊對象提供於三個各別串流中。亦即，在此實例中，將德文對話串流538、英文註釋串流540及德文註釋串流542提供於不同串流中。然而，可將其他音訊對象中之任一者可組合成單個串流。舉例而言，單個串流可包括德文對話串流538與德文註釋串流542兩者。

在此實例中，NGA音訊解碼器550基於經由使用者介面546所接收之輸入558而判定擷取哪些串流。預選擇單元544基於由NGA音訊解碼器550提供之回饋而判定串流中之哪些包括所請求音訊資料(例如，用於對話之語言，且視需要，用於註釋之語言)，該NGA音訊解碼器處理經由使用者介面546接收之使用者選擇558。特定而言，NGA處理器552處理使用者選擇558，將所選擇音訊串流自所接收音訊資料556轉發至音訊解碼及呈現單元554，及音訊解碼及呈現單元554解碼並再現所選擇音訊串流之音訊資料。

以此方式，圖6之系統530表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖17說明實例系統560，其包括預選擇單元574、NGA音訊解碼器580及使用者介面576。NGA音訊解碼器580包括NGA處理器582及音訊解碼及呈現單元584。在圖17之實例中，NGA音訊解碼器580及預選擇單元574接收音訊串流後設資料562連同音樂及音效(M&E)媒體串流564。音訊串流後設資料562可被包括在(例如)資訊清單檔案，諸如DASH之MPD。

在圖17之實例中，將每一音訊對象提供於單串流(即，媒體串流565)中。特定而言，在此實例中，將M&E串流564、英文對話串流566、德文對話串流568、英文註釋串流570及德文註釋串流572提供於媒體串流565中。

在此實例中，NGA音訊解碼器580基於經由使用者介面576所接收之輸入588而判定擷取哪些串流。預選擇單元574基於由NGA音訊解碼器580提供之回饋而判定串流中之哪些包括所請求音訊資料(例如，用於對話之語言，且視需要，用於註釋之語言)，該NGA音訊解碼器處理經由使用者介面576接收之使用者選擇588。特定而言，NGA處理器582處理使用者選擇588，將所選擇音訊串流自所接收音訊資料586轉發至音訊解碼及呈現單元584，及音訊解碼及呈現單元584解碼並再現所選擇音訊串流之音訊資料。

以此方式，圖17之系統560表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

儘管未單獨說明，單個接收器可經組態以單獨地或以組合方式接收符合圖15至圖17中之任一者之模型之音訊資料。此外，儘管圖15至圖17之實例中未展示，但圖15至圖17之實例系統中之任一者可進一步包括系統層單元，該系統層單元以實質上類似於圖5至圖7、圖9、圖10、圖13或圖14之系統層單元的方式組態。

根據圖15至圖17之實例之接收器器件可經組態以如下操作。系統層單元可判定每一媒體串流之網路能力及遞送網路、解碼器能力，及基礎系統層後設資料(例如，語言、可存取性、評級)。

˙NGA選擇器可判定：

○經指派至每一媒體串流之後設資料

○後設資料可比現在在系統級上所定義之資料豐富得多

˙使用系統後設資料之系統層可：

○基於網路能力、解碼能力及基礎系統後設資料而剪除媒體串流及預選擇

○將一個預選擇之所有串流提供至音訊解碼器，該音訊解碼器基於網路能力及系統後設資料可用

˙音訊解碼器可基於音訊後設資料而告知系統層串流(不)需要之內容

○系統層根據此資訊而(取消)選擇串流

˙選擇可為動態

圖18為說明包括定位在web瀏覽器632與MPEG-2系統層單元624之間的使用者介面/代理634之接收器器件600之實例的概念圖。接收器器件600亦包括選擇單元622及NGA音訊解碼器626，該NGA音訊解碼器又包括NGA處理器628及音訊解碼及呈現單元630。

最初，NGA處理器628可接收音訊串流後設資料603，該音訊串流後設資料包括描述媒體資料之每一可用串流之資料，包括音樂及音效(M&E)串流604(其中附有系統後設資料602)、英文對話串流608(其中附有系統後設資料606)、德文對話串流612(其中附有系統後設資料610)、英文註釋串流616(其中附有系統後設資料614)，及德文註釋串流620(其中附有系統後設資料618)。音訊串流後設資料603可被包括在(例如)資訊清單檔案，諸如DASH之MPD。此外，NGA音訊解碼器626將資料636提供至系統層單元624，系統層單元624表示可由(例如)音訊解碼及呈現單元630處理之可用串流。系統層單元624在此實例中接收系統後設資料602、606、610、614及618，且將表示串流中之哪些可用於選擇之資料發送至web瀏覽器632。

在此實例中，使用者可經由表示所選擇音訊串流之web瀏覽器632提供輸入。另外或替代地，使用者可經由使用者介面/代理634提供輸入。在此等實例中，web瀏覽器632傳遞表示使用者選擇之資料638，及/或使用者介面/代理634傳遞表示選擇之資料640。系統層單元624接收資料638及/或640，且繼而將表示選擇之資料642提供至預選擇單元622。

預選擇單元622自提供有M&E串流604之音訊串流後設資料603判定串流中之哪些包括所請求音訊資料(例如，對話及/或註釋)，並選擇適當串流。預選擇單元622接著將音訊資料644自所選擇串流轉發至NGA音訊解碼器626。NGA音訊解碼器626使用音訊解碼及呈現單元630解碼並再現音訊資料，且接著將經解碼及再現音訊資料轉發至音訊輸出，諸如一或多個揚聲器(未展示)。

以此方式，圖18之接收器器件600表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖19為說明包括定位於web瀏覽器682與NGA音訊解碼器676之間的使用者介面684之接收器器件650之另一實例的概念圖。此實例基本上符合圖18之實例，惟除使用者介面684將表示可用音訊串流之選擇之輸入自使用者提供至NGA音訊解碼器676，且NGA音訊解碼器676將表示輸入/選擇之資料686提供至系統層單元674。MPEG-2系統層單元674繼而將資料692提供至預選擇單元672。預選擇單元672自提供有M&E串流654之音訊串流後設資料653判定可用音訊串流中之哪些包括所請求音訊資料(例如，對話及/或註釋)。音訊串流後設資料653可被包括在(例如)資訊清單檔案(諸如DASH之MPD)中。

在此實例中，可用音訊資料包括M&E串流654(其中附有系統後設資料652)、英文對話串流658(其中附有系統後設資料656)、德文對話串流662(其中附有系統後設資料660)、英文註釋串流666(其中附有系統後設資料664)，及德文註釋串流670(其中附有系統後設資料668)。系統層單元624在此實例中接收系統後設資料652、656、660、664及668，並將表示可用於選擇之串流之類型之資料688發送至web瀏覽器682。

預選擇單元672自提供有M&E串流654之音訊串流後設資料653判定串流中之哪些包括所請求音訊資料(例如，對話及/或註釋)，並選擇適當串流。預選擇單元672接著將音訊資料694自所選擇串流轉發至NGA音訊解碼器676。NGA音訊解碼器676使用音訊解碼及呈現單元680解碼並再現音訊資料，且接著將經解碼及再現音訊資料轉發至音訊輸出，諸如一或多個揚聲器(未展示)。

以此方式，圖19之接收器器件650表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

圖20為說明接收器器件700之另一實例的概念圖。此實例表示圖18及圖19之實例的組合。亦即，接收器器件700可經組態以根據圖18接收器器件600及/或圖19之接收器器件650之實例中之任一者或兩者起作用。

在此實例中，接收器器件700包括預選擇單元722、系統層單元724、NGA音訊解碼器726、使用者介面734、使用者介面/代理732及瀏覽器746。NGA音訊解碼器726包括NGA處理器728及音訊解碼及呈現單元730。

在此實例中，使用者介面734可將來自使用者表示可用音訊串流之選擇之輸入提供至NGA音訊解碼器726。在此實例中，NGA音訊解碼器726將表示輸入/選擇之資料736提供至系統層單元724。替代地，使用者介面/代理732及/或瀏覽器746可將表示可用於NGA音訊解碼器726之音訊串流之選擇的資料740、738分別提供至系統層單元724。在任一狀況下，MPEG-2系統層單元724將資料742提供至預選擇單元722。預選擇單元722自提供有M&E串流704之音訊串流後設資料703判定可用音訊串流中之哪些包括所請求音訊資料(例如，對話及/或註釋)。音訊串流後設資料703可被包括在(例如)資訊清單檔案(諸如，DASH之MPD)中。

在此實例中，可用音訊資料包括M&E串流704(其中附有系統後設資料702)、英文對話串流708(其中附有系統後設資料706)、德文對話串流712(其中附有系統後設資料710)、英文註釋串流716(其中附有系統後設資料714)，及德文註釋串流720(其中附有系統後設資料718)。系統層單元724在此實例中接收系統後設資料702、706、710、714及718，並將表示可用於選擇之串流之類型之資料發送至web瀏覽器746。

預選擇單元722自提供有M&E串流704之音訊串流後設資料703判定串流中之哪些包括所請求音訊資料(例如，對話及/或註釋)，並選擇適當串流。預選擇單元722接著將音訊資料744自所選擇串流轉發至NGA音訊解碼器726。NGA音訊解碼器726使用音訊解碼及呈現單元730解碼並再現音訊資料，且接著將經解碼及再現音訊資料轉發至音訊輸出，諸如一或多個揚聲器(未展示)。

以此方式，圖20之接收器器件700表示用於接收音訊資料之器件之實例，包括：一音訊解碼器，其使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其以數位邏輯電路實施且經組態以接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

作為一項實例，可用於預選擇音訊資料(且，因此，音訊串流)之資料可包括以下：

˙基本預選擇資料使得系統層能夠預選擇

○@codecs

￭僅2個：AC-4及MPEG-H音訊

○網路能力(僅廣播，寬頻)

˙可能預選擇資料：

○角色及可存取性

￭涵蓋有來自Amd.2之角色方案。

○語言

￭基於ISO/IEC語言標籤之可能值。

○音訊頻道組態

￭編解碼器獨立寫碼點：ISO/IEC 23001-9

○頻道位置

￭編解碼器獨立寫碼點：ISO/IEC 23001-9

○採樣率

￭可具有整數值

○評級

￭ATSC中可用之任何方案

○需要仔細定義之任何其他項

˙若在MPEG-2系統級處啟用預選擇，則某些串流可不可用於音訊解碼器。

根據本發明之器件及系統(諸如上文所論述之圖中所展示之彼等)可根據以下一般要求及解決方案操作：

˙發信通知可能無法使用單個自適應集→定義類型PartialAS。

˙發信通知所有自適應集屬於單個解碼器→@bundleID。

˙提供預選擇之發信：

○選項1：預選擇要素，其參考提供在部分AS中之串流。

○選項2：串流之線性相依性使用新相依性要素。

○在所有狀況下，預選擇可經註解有後設資料。預選擇要素可包括可(例如)由使用者代理用於自動選擇之參數。

˙對集束之主要串流進行註解。

○選項1：添加@main發信。

○選項2：@sequence屬性之第一串流

˙對一個串流中之對象進行註解→ContentComponent。

˙對所有部分自適應集進行註解使得其可由音訊解碼器引用→@memberID。

根據此實施例之器件及系統(諸如上文所論述之圖中所展示之彼等)可根據以下ATSC警告操作：

˙惟除始終存在經由廣播分佈之完整呈現→使其成為可經選擇且亦含有完整音訊後設資料之完整自適應集。

˙經由無法個別選擇之自適應集描述額外媒體串流。

˙實現多工版本以及單獨版本→添加成分ID。

以下為ATSC之解決方案之一種實例提議，該ATSC可由本發明之器件或系統中之任一者或類似器件或系統實施：

˙始終提供確切一個完整自適應集，通常經由廣播遞送。

˙提供關於通常經由寬頻提供之額外對象之相關聯部分自適應集。

○部分自適應集可用基本描述符及新方案發信。

○描述符之值可為一系列自適應集ID操作提供對應完整自適應集之開始點。

˙將每一對象發信為ContentComponent：

○可使用關於每一對象之現有參數提供描述。若僅包括單個內容成分，則可在AS級上發信上述情形。

○ContentComponent@id之值可為編解碼器所有且可在(例如)轉發資訊之條件下用於識別對象。

˙提供@qualityRanking以在不同自適應集中實現匹配表示。

˙另外，可提供新ex：PreSelection擴展要素，從而發信預選擇。

○預選擇可提供多個對象之組合(藉由指向ContentComponent@id來提供)並指派信號預選擇ID。

○預選擇要素中之額外後設資料可甚至為編解碼器特定。

下面提供功能之實例映射：

˙發信通知可能無法使用單個自適應集→定義類型PartialAS→基本描述符，但一個AS中始終一個完整預選擇。

˙發信通知所有自適應集屬於單個解碼器→@bundleID→集束ID為主要自適應集之@id且所有AS發信其屬於此AS之其基本描述符值。

˙提供預選擇之發信：

○選項1：參考提供在部分AS中之串流之預選擇要素→此可用於資訊。

○選項2：串流之線性相依性使用新相依性要素→可以ContentComponent級使用上述情形。

○在所有狀況下，預選擇可經註解有後設資料。

˙對集束之主要串流進行註解：

○選項1：添加@main發信以表示一個完整自適應集。

○選項2：@sequence屬性之第一串流表示一個完整自適應集。

˙對一個串流中之對象進行註解→ContentComponent→相同。

˙對所有部分自適應集進行註解使得其可由音訊解碼器引用→@memberID→ContentComponent@id。

根據上文所論述之技術之實例資料集為：

˙主要音訊串流含有M&E對象以及英文對話。

˙另外，以下各項在上文所論述之實例中可用(但在其他實例紅者能夠，其他語言之其他音訊資料集可用)：

○德文對話

○英文註釋

○德文註釋

在圖5至圖20之實例中，各種器件及其單元可以硬體、軟體、韌體或其任何組合實施。當以軟體或韌體實施時，應理解，亦可提供必要的硬體。此硬體可包括以離散邏輯電路實施之各種可程式化及/或固定用途處理單元中之任一者，諸如例如，一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路。

此外，在圖5至圖20之實例中，各種音訊串流可符合(例如)MPEG-H或AC-4第2部分，或其他此等音訊寫碼標準。用於傳輸音訊串流之傳輸標準包括MPEG-2輸送串流(TS)。使得可以單個節目串流、單獨各別節目串流或音訊串流與節目串流之間的N：M關係(其中可以單個MPEG-2 TS節目串流攜載一或多個音訊串流且其中可存在多個MPEG-2 TS節目串流(每一者攜載一或多個音訊串流))攜載之每一音訊串流。另外或替代地，音訊串流可被包括作為包含音訊對象之MPEG媒體輸送(MMT)資產。

圖21為說明在MPEG-2系統級上作出對所有資料之實例選擇的概念圖。箭頭表示預選擇音訊資料與包括所選擇資料之串流之間的對應性。對應性可如上文在各種實例中所論述由預選擇單元判定。

圖22為說明其中除M&E音訊資料外亦存在對英文註釋之選擇的實例的概念圖。可藉由使用包括英文註釋之自適應集之@id=4屬性識別串流，或經由使用@id=「註釋-英文」屬性之預選擇來進行對英文註釋之選擇。圖22特定說明在剪除不匹配自圖21中所展示之資料集預選擇或選擇之屬性的自適應集之後剩餘的自適應集。

圖23為說明其中預選擇單元(或另一單元)剪除自適應集以將未由使用者選擇之彼等移除之另一實例的概念圖。在此狀況下，針對M&E串流及英文串流做出預選擇。預選擇單元可接著剪除所有其他串流，亦即，不具有等於「1」之@id要素、ContentComponent @id=「me」、ContentComponent @id=「en-dialogue」及/或@id=「主要英文」的彼等串流。圖23特定說明在剪除不匹配自圖21中所展示之資料集所預選擇或選擇之屬性之自適應集之後剩餘之自適應集。

替代地，預選擇可用於選擇。當將預選擇用於選擇時，可以此次序使用以下資料：

˙@codecs包括編解碼器、設定檔及等級指示，例如，需要經解碼之對象之所需總數目

˙預選擇之評級限制

˙其他能力

˙標籤，供基於使用者互動之選擇

˙標籤可以不同語言用於呈現。

˙預選擇@lang之唯一存在或優勢(可為任一者)語言

˙根據現有定義之預選擇之指派角色

˙亦經指派至音訊之其他參數

˙@priority(若多重停留則選擇)

˙@bundleID(解碼器執行個體發信)

由(例如)上文所描述之預選擇單元執行之實例剪除過程可為如下：

˙初始剪除關於能力(例如，寫碼及再現能力)之預選擇。若預選擇要素中規定且在平台上可用，則通常：

○編解碼器設定檔/等級，

○評級限制，及/或

○其他音訊能力，例如，再現。

˙若可能，則使用標籤來進行使用者選擇(在加入時間可能不會)

˙使用系統預設來進一步剪除預選擇(語言、角色，等)。

˙最後，使用優先權來選擇具有最高優先權之剩餘預選擇。

以下為更複雜使用狀況之實例。

˙串流：

○串流A=(2多工音訊成分)=M&E+對話主要語言(EN)

○串流B=對話次要語言(DE)

○串流C=註釋(EN)

○串流D=註釋(DE)

˙預選擇：

○選項1=M&E+對話(EN)

○選項2=M&E+對話(DE)

○選項3=M&E+對話(EN)+註釋(EN)

○選項4=M&E+對話(DE)+註釋(DE)

○選項5=M&E+對話(DE)+註釋(EN)

○選項6=M&E+註釋(EN)

˙假設：

○一起解碼之2個成分需要@codecs=「nga1.level1」

○一起解碼之3成分需要@codecs=「nga1.level2」

在一些實例中，可在資訊清單檔案(例如，MPD)中識別相同內容多次。以下展示此實例：

˙AdaptationSet：@id=1；@codecs=「nga1」

○ContentComponent @id=「me」

￭Role(urn：mpeg：dash：role：2011，值=「補充」)

○ContentComponent @id=「en-dialogue」@lang=en

￭Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@qualityRanking=2 @bandwidth=96 broadband

○表示2：@qualityRanking=1 @bandwidth=196 broadcast

˙AdaptationSet：@id=2；@codecs=「nga1」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,2」)

○ContentComponent @id=「de-dialog」@lang=de

￭Role(urn：mpeg：dash：role：2011，值=「主要」)

￭Role(urn：mpeg：dash：role：2011，值=「配音」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

˙AdaptationSet：@id=3；@codecs=「nga2」

○EssentialDescriptor(@schemeIDURI=「partial」；@value= 「1,3」)

○ContentComponent @id=「motorway」@lang=en

￭Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanlking=1 @bandwidth=128 broadband

˙AdaptationSet：@id=4；@codecs=「nga2」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,2,4」)

○ContentComponent @id=「autobahn」@lang=de

￭Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

˙AdaptationSet：@id=5；@codecs=「nga2」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,2,5」)

○ContentComponent @id=「motorway」@lang=en

￭Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

˙AdaptationSet：@id=6；@codecs=「nga1」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,6」)

○ContentComponent @id=「motorway」@lang=en

￭Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

根據此資訊清單檔案資料之預選擇之實例可如下：

˙預選擇

○@id=「選項1」

○@included=「me,en-dialogue」

○標籤

˙@lang=「en」；@value=「English main」

￭@lang=「de」；@value=「Englisch Dialog」

˙預選擇

○@id=「選項2」

○@included=「me,de-dialog」

○標籤

￭@lang=「en」；@value=「German main」

￭@lang=「de」；@value=「Deutscher Dialog」

˙預選擇

○@id=「選項3」

○@included=「me,en-dialogue,motorway」

○標籤

￭@lang=「en」；@value=「English Commentary」

￭@lang=「de」；@value=「Englischer Kommentar」

˙預選擇

○@id=「選項4」

○@included=「me,de-dialog,autobahn」

○標籤

￭@lang=「en」；@value=「English with German Commentary」

￭@lang=「de」；@value=「Englisch mit Deutschem Kommentar」

˙預選擇

○@id=「選項5」

○@included=「me,de-dialog,motorway」

○標籤

@lang=「en」；@value=「English with German Commentary」

@lang=「de」；@value=「Englisch mit Deutschem Kommentar」

˙預選擇

○@id=「選項6」

○@included=「me,motorway」

○標籤

￭@lang=「en」；@value=「English with German Commentary」

￭@lang=「de」；@value=「Englisch mit Deutschem Kommentar」

在另一實例中，預選擇可基於選擇，如下文所展示：

˙AdaptationSet：@id=1；@codecs=「nga1」

○ContentComponent @id=「me」

￭Role(urn：mpeg：dash：role：2011，值=「補充」)

○ContentComponent @id=「en-dialogue」@lang=en

￭Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@qualityRanking=2 @bandwidth=96 broadband

○表示2：@qualityRanking=1 @bandwidth=196 broadcast

˙AdaptationSet：@id=3；@codecs=「nga2」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,3」)

○ContentComponent @id=「de-dialog」@lang=de

￭Role(urn：mpeg：dash：role：2011，值=「主要」)

￭Role(urn：mpeg：dash：role：2011，值=「配音」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

˙AdaptationSet：@id=4；@codecs=「nga2」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,4」)

○ContentComponent @id=「motorway」@lang=en

￭Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

˙AdaptationSct：@id=5；@codecs=「nga2」

○EssentialDescriptor(@schemeIDURI=「partial」；@value=「1,5」)

○ContentComponent @id=「autobahn」@lang=de

￭Role(urn：mpeg：dash：role：2011，值=「註釋」)

○表示1：@qualityRanking=2 @bandwidth=64 broadband

○表示2：@qualityRanking=1 @bandwidth=128 broadband

根據此資訊清單檔案資料之預選擇之實例可如下：

˙預選擇

○@id=「option 1」.@included=「me,en-dialogue」；@codecs=nga1；@priority=1

○標籤

￭@lang=「en」；@value=「English main」

￭@lang=「de」；@value=「Englisch Dialog」

˙預選擇

○@id=「option 2」,@included=「me,de-dialog」；@codecs=nga1；@priority=2

○標籤

￭@lang=「en」；@value=「German main」

￭@lang=「de」；@value=「Deutscher Dialog」

˙預選擇

○@id=「選項3」,@included=「me,en-dialogue,motorway」；@codecs=nga2；@priority=3

○標籤

￭@lang=「en」；@value=「English Dialogue and Commentary」

￭@lang=「de」；@value=「Englischer Dialog mit Kommentar」

˙預選擇

○@id=「選項4」,@included=「me,de-dialog,autobahn」；@codecs=nga2；@priority=4

○標籤

￭@lang=「en」；@value=「German with German Commentary」

￭@lang=「de」；@value=「Deutsch mit Deutschem Kommentar」

˙預選擇

○@id=「選項5」,@included=「me,de-dialog,motorway」；@codecs=nga2；@priority=5

○標籤

￭@lang=「en」；@value=「German with English Commentary」

￭@lang=「de」；@value=「Deutsch mit Englischem Kommentar」

˙預選擇

○@id=「option 6」.@included=「me,motorway」；@codecs=nga1；@priority=6

○標籤

￭@lang=「en」；@value=「German Commentary」

￭@lang=「de」；@value=「Deutscher Kommentar」

在上述之實例中，若選擇nga1及「德文」，則剩餘預選擇選項將為具有@id=「option2」之預選擇。

下文描述ATSC使用狀況之實例。以斜體展示選用要素及屬性。

如下文所描述之第一、第二、第三及第四實例ATSC使用狀況通常涉及用僅一個完整主要音訊串流遞送節目之廣播器。不存在在此等實例中可用於此節目之任何其他音訊選項。

˙AdaptationSet：@id=1；@codecs=「nga1」；@lang=en

○ContentComponent @id=「完整」

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@bandwidth=196 broadcast

˙預選擇

○@id=「主要英語」

○@included=「完整」

第一、第二、第三及第四實例ATSC使用狀況如下：

˙廣播器遞送具有僅一個完整主要音訊串流之節目。不存在可用於此節目之任何其他音訊選項。

˙廣播器經由廣播提供具有兩個或對於兩個完整主要音訊串流之節目。根據(例如)以下各項基於在DASH資訊清單中可用之現在之音訊性質發信而由用戶端選擇串流中之僅一者：○接收器之音訊語言偏好設定，○接收器之存取性設定，○接收器之編解碼器能力，及/或○接收器之輸出偏好(例如，立體聲對多頻道輸出)。

˙廣播器以除個別完整主要音訊串流外之形式將提供多個音訊選項之節目遞送至觀眾。亦即，廣播器可提供含有所有所需要音訊成分之一個單個音訊串流以解碼(例如)主要語言、次要語言、視訊描述服務等。用戶端基於以下各項選擇來自串流之音訊選項中之僅一者：○在DASH資訊清單中可用之現在之音訊性質發信，及/或○待由DASH-IF定義以便發信浸沒式及個人化內容之新參數或方法。

˙廣播器提供混合服務，具有2個音訊選項之節目。一個主要音訊串流可經由廣播遞送且另一主要音訊串流可經由寬頻遞送。基於以下各項，由用戶端選擇串流中之僅一者：○在DASH資訊清單中可用之現在之音訊性質發信，○待由DASH-IF定義以便發信浸沒式及個人化內容之新參數或方法，及/或○連接性(啟用/停用經由乙太網或WiFi存取混合內容)。

第五、第六及第七實例ATSC使用狀況涉及經由廣播提供具有兩個或對於兩個完整主要音訊串流之節目的廣播器。根據(例如)以下各項基於DASH資訊清單中可用之現在之音訊性質發信而由用戶端選擇串流中之僅一者：接收器之音訊語言偏好設定、接收器之存取性設定、接收器之編解碼器能力及接收器之輸出偏好(例如，立體聲對多頻道輸出)。

˙AdaptationSet：@id=1；@codecs=「nga1」；@lang=en

○ContentComponent @id=「完整」

○Role(urn：mpeg：dash：role：2011，值=「主要」)

○表示1：@bandwidth=196 broadcast

˙AdaptationSet：@id=2；@codecs=「nga1」；@lang=de

○ContentComponent @id=「完整」

○Role(urn：mpeg：dash：role：2011，值=「配音」)

○表示1：@bandwidth=196 broadcast

˙預選擇

○@id=「主要英語」

○@bundleID=1

○@included=「完整」

˙預選擇

○@id=「主要德語」

○@bundleID=2

○@included=「完整」

可使用上文所論述之資料之第五、第六及第七實例ATSC使用狀況如下：

˙廣播器提供混合服務。具有諸多音訊選項之節目，其中共同音訊成分(例如，音樂及音效)及主要語言音訊係經由廣播遞送。次要語言及其他音訊成分係經由寬頻遞送。所有音訊選項要求一起解碼共同成分基於以下各項，由用戶端選擇音訊選項中之僅一者：

○在DASH資訊清單中可用之現在之音訊性質發信

○待由DASH-IF定義以便發信浸沒式及個人化內容之新參數或方法

○連接性(啟用/停用經由乙太網或WiFi存取混合內容)

˙廣播器提供具有諸多音訊選項之節目，其中所有音訊組件係經由寬頻遞送。基於以下各項，由用戶端選擇音訊選項中之僅一者：

○在DASH資訊清單中可用之現在之音訊性質發信

˙經由寬頻遞送之額外音訊串流。

圖24為根據本發明之技術說明實例方法的流程圖。出於實例之目的，將實例方法描述為由圖20之接收器器件700執行。然而，應理解，此或類似方法可由各種其他器件(諸如圖18之網路接收器600、圖19之網路接收器650或圖6、圖7、圖9、圖10或圖13至圖17中之任一者之各種接收器器件/系統)執行。

最初，在此實例中，NGA音訊解碼器726接收關於媒體資料之資訊清單檔案(800)。資訊清單檔案可包含(例如)DASH之MPD。資訊清單檔案可包括音訊串流後設資料，諸如音訊串流後設資料703(圖20)。音訊串流後設資料可大體描述媒體資料之音訊資料之特性，諸如寫碼特性、再現特性及其他特性，諸如關於對應串流之內容評級(描述對特定觀眾之內容適合性)、關於對應串流之語言，及/或關於對應串流之角色/可存取性。

因此，NGA音訊解碼器726可判定資訊清單檔案中所描述之音訊對象(802)。大體而言，音訊對象可對應於媒體資料之自適應集或部分自適應集。每一音訊對象可表示不同類型之音訊資料，諸如音樂及音效、對話，及/或註釋。在圖20之實例中，NGA音訊解碼器726將判定M&E串流704、英文對話串流708、德文對話串流712、英文註釋串流716及德文註釋串流720可用。

NGA音訊解碼器726可進一步判定串流中之每一者藉以可用之網路(804)。特定而言，各種網路可表示經由網路(諸如廣播、寬頻或兩者)輸送對應串流之方式。此外，儘管圖24中未展示，但NGA音訊解碼器726亦可判定對應於音訊對象之音訊自適應集是否包括具有各別特定識別符之各別可完全呈現音訊呈現，音訊自適應集是否取決於一或多個其他音訊自適應集(以及音訊自適應集取決於之音訊自適應集之識別符)，及音訊自適應集之識別符。

NGA音訊解碼器726可接著接收音訊對象之一或多個選擇(806)。此等選擇可表示使用者選擇或使用者代理選擇。使用者選擇通常表示直播使用者輸入，而使用者代理選擇通常表示先前經組態之組態資料(其可表示(例如)「若可用，則選擇英文對話」)。如上文關於圖20所論述，NGA音訊解碼器726可自使用者介面/代理732(圖20)、瀏覽器746(圖20)或使用者介面734(圖20)接收此輸入。在一些實例中，NGA音訊解碼器726可(例如)基於音訊串流後設資料703且基於哪些網路當前可用於接收器器件700而經由瀏覽器746初始地指示音訊串流中之哪一者可用。

在接收指示已選擇音訊對象中之哪些之選擇資料之後，NGA音訊解碼器726經由所判定網路接收所選擇音訊資料(808)。舉例而言，若廣播網路可用，且音訊串流中之一或多者經由廣播網路可用，則NGA音訊解碼器726可經由廣播網路接收音訊資料。在一些實例中，經由廣播網路接收音訊資料可包括訂閱廣播(或，在一些實例中，網路多播)。作為另一實例，若廣播網路不可用，或若所選擇音訊對象僅經由寬頻可用，則NGA音訊解碼器726可(例如)根據單播協定(諸如HTTP(例如，使用DASH))接收所選擇音訊對象。回應於接收音訊資料，NGA音訊解碼器726之NGA處理器728將音訊資料轉發至音訊解碼器(810)，諸如音訊解碼及呈現單元730(圖20)。

以此方式，圖24之方法表示包括以下操作之方法之實例：接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用，接收指示將呈現該等音訊對象中之哪些的選擇資料，基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。

在一或多個實例中，所描述之功能可以硬體、軟體、韌體或其任一組合來實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸，且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體，其對應於例如資料儲存媒體之有形媒體，或包括促進(例如)根據通信協定將電腦程式自一個位置傳送至另一位置之任一媒體的通信媒體。以此方式，電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術之指令、程式碼及/或資料結構之任何可用媒體。電腦程式產品可包括電腦可讀媒體。

通過實例之方式且非限制性，此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光學磁碟儲存裝置、磁碟儲存裝置或其他磁性儲存器件、快閃記憶體或可用於以指令或資料結構之形式儲存所要程式碼且可由電腦存取之其他媒體。此外，可將任何連接恰當地稱為電腦可讀媒體。舉例來說，如果使用同軸電纜、光纖纜線、雙絞線、數字訂戶線(DSL)或例如紅外線、無線電及微波等無線技術從網站、服務器或其它遠程源傳輸指令，那麼所述同軸電纜、光纖纜線、雙絞線、DSL或例如紅外線、無線電及微波等無線技術皆包含於媒體的定義中。然而，應理解電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，但替代地是針對非暫時性、有形儲存媒體。如本文中所使用，磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟，其中磁碟通常以磁性方式再生資料，而光碟藉由雷射以光學方式再生資料。上述各項之組合還應包括在電腦可讀媒體之範疇內。

指令可由一或多個處理器執行，例如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路。因此，如本文中所使用之術語「處理器」可為指前述結構或適於實施本文中所描述之技術的任何其他結構中之任一者。另外，在一些方面中，本文中所描述之功能性可提供在經組態以用於編碼及解碼或併入於組合式編解碼器中之專用硬體及/或軟體模組內。此外，技術可以一或多個電路或邏輯元件來完全實施。

本發明之技術可以廣泛各種器件或裝置(包含無線手機、積體電路(IC)或IC組(例如，晶片組))實施。各種組件、模組或單元在本發明中經描述以強調經組態以執行所揭示技術之器件之功能態樣，而未必需要由不同硬體單元實現。確切來說，如上文所描述，各種單元可以編解碼硬體單元組合或通過交互操作硬體單元(包括如上文所描述之一或多個處理器)之集合結合適合軟體及/或韌體提供。

已描述各種實例。此等及其他實例在以下申請專利範圍之範疇內。

Claims

一種接收媒體資料之方法，該方法包含：接收包括音訊串流元資料之一資訊清單檔案，該音訊串流元資料描述符合MPEG-H或AC-4第2部分之複數個音訊對象，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用；將該音訊串流元資料提供至一音訊解碼器，該音訊解碼器經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；回應於將該音訊串流元資料提供至該音訊解碼器，自該音訊解碼器接收表示該複數個音訊對象之資料；接收選擇資料，該選擇資料指示將呈現該等音訊對象中之哪些；基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，其中接收該串流化媒體資料包含：使用該選擇資料判定將呈現該複數個音訊對象之該等音訊對象之哪些；針對將呈現之該等音訊對象之每一者使用該資訊清單檔案判定該音訊對象是否經由廣播或寬頻可用；及基於將呈現之該等音訊對象是否經由廣播或寬頻可用及來自該資訊清單檔案中規定之網路位置之該判定，經由廣播或寬頻擷取將呈現之該等音訊對象之每一者；及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。
如請求項1之方法，其中該資訊清單檔案包含一經由HTPP之動態自適性串流(DASH)媒體呈現描述(MPD)，且其中該等音訊對象經發信作為該DASH MPD中之自適應集。
如請求項1之方法，其中接收該串流化媒體資料包含接收一單個符合MPEG-2輸送串流(TS)之節目串流或多個符合MPEG-2 TS之節目串流。
如請求項1之方法，其中接收該串流化媒體資料包含接收包含該等音訊對象之一或多個MPEG媒體輸送(MMT)資產。
如請求項1之方法，其進一步包含使用該資訊清單檔案來針對該等音訊自適應集中之每一者而判定：該等音訊自適應集是否包含具有一特定識別符(ID)之一可完全呈現音訊呈現；該音訊自適應集是否取決於一或多個其他音訊自適應集，且當該音訊自適應集取決於一或多個其他音訊自適應集時，判定用於該一或多個其他音訊自適應集之識別符；及用於該音訊自適應集之一識別符。
如請求項5之方法，其進一步包含判定該等音訊自適應集中之每一表示之相對品質，其表示該等表示中之每一者之品質排名屬性。
如請求項5之方法，其中該資訊清單檔案指示該等音訊對象中之每一者經提供在一迴異資料串流中。
如請求項5之方法，其中該資訊清單檔案指示該等音訊對象中之兩者或更多經多工於一廣播串流中且該等其他音訊對象經由寬頻可用作迴異資料串流。
如請求項5之方法，其中該資訊清單檔案指示該等音訊對象中之每一者經多工至一單個資料串流中。
如請求項9之方法，其中該資訊清單檔案指示該單個資料串流經由廣播可用。
如請求項5之方法，其中該資訊清單檔案將該可完全呈現音訊呈現之該特定ID作為包含該可完全呈現音訊呈現之該音訊對象之一音訊對象識別符而發信。
如請求項5之方法，其中該資訊清單檔案將該可完全呈現音訊呈現之該特定ID作為包括該可完全呈現音訊呈現之一ISO基礎媒體檔案格式檔案中之一音軌之一音軌ID而發信。
如請求項5之方法，其中該資訊清單檔案將該可完全呈現音訊呈現之該特定ID作為包括該可完全呈現音訊呈現之一MPEG-2輸送串流中之一基本串流之一節目識別符(PID)而發信。
如請求項5之方法，其中該資訊清單檔案包括發信包括該可完全呈現音訊呈現之一MPEG媒體輸送(MMT)串流之該特定ID之描述符資料。
如請求項5之方法，其中該資訊清單檔案使用一基本描述符來發信音訊自適應集之間的相依性，該基本描述符具有提供用於一相依自適應集取決於其之該等自適應集之識別符的一值。
如請求項5之方法，其中該資訊清單檔案使用內容成分要素來發信用於該等音訊對象之識別符。
如請求項5之方法，其進一步包含自該資訊清單檔案擷取一或多個預選擇要素。
如請求項17之方法，其中該等預選擇要素各自包括用於選擇該等音訊對象之一子集的一描述符。
如請求項17之方法，其中該等預選擇要素各自包括可用於自動選擇之一或多個參數。
如請求項17之方法，其中該等預選擇要素各自包括指示用於此預選擇所需要之編解碼能力之資料。
如請求項17之方法，其中該等預選擇要素各自包括用於使用者選擇之一文字標籤。
如請求項21之方法，其中該文字標籤經以對應於該各別音訊資料之一語言之一語言提供。
如請求項17之方法，其中該等預選擇要素各自包括一優先權值。
如請求項17之方法，其進一步包含：基於該所接收選擇資料而使用該等預選擇要素來選擇該等音訊對象之一子集。
一種用於接收音訊資料之器件，該器件包含：一音訊解碼器，其係使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；及一音訊資料處理單元，其係以數位邏輯電路實施且經組態以：接收包括音訊串流元資料之一資訊清單檔案，該音訊串流元資料描述符合MPEG-H或AC-4第2部分之複數個音訊對象，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用；將該音訊串流元資料提供至該音訊解碼器；回應於將該音訊串流元資料提供至該音訊解碼器，自該音訊解碼器接收表示該複數個音訊對象之資料；接收選擇資料，該選擇資料指示將呈現該等音訊對象中之哪些；基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，其中為了接收該串流化媒體資料，該音訊資料處理單元經組態以：使用該選擇資料判定將呈現該複數個音訊對象之該等音訊對象之哪些；針對將呈現之該等音訊對象之每一者使用該資訊清單檔案判定該音訊對象是否經由廣播或寬頻可用；及基於將呈現之該等音訊對象是否經由廣播或寬頻可用且來自該資訊清單檔案中規定之網路位置之該判定，經由廣播或寬頻擷取將呈現之該等音訊對象之每一者；及將由該選擇資料指示之該等音訊對象提供至該音訊解碼器。
如請求項25之器件，其中該資訊清單檔案包含一經由HTPP之動態自適性串流(DASH)媒體呈現描述(MPD)，且其中該等音訊對象經發信作為該DASH MPD中之自適應集。
如請求項25之器件，其進一步包含一網路介面，該網路介面經實施經組態以接收以下中之一或多者：包括該等音訊對象之一單個符合MPEG-2輸送串流(TS)之節目串流、包括該等音訊對象之多個符合MPEG-2 TS之節目串流，或包含該等音訊對象之一或多個MPEG媒體輸送(MMT)資產。
如請求項25之器件，其中該音訊資料處理單元經進一步組態以使用該資訊清單檔案來針對該等音訊自適應集中之每一者而判定：該等音訊自適應集是否包含具有一特定識別符(ID)之一可完全呈現音訊呈現；該音訊自適應集是否取決於一或多個其他音訊自適應集，且當該音訊自適應集取決於一或多個其他音訊自適應集時，判定用於該一或多個其他音訊自適應集之識別符；及用於該音訊自適應集之一識別符。
如請求項27之器件，其中該音訊資料處理單元經進一步組態以自該資訊清單檔案擷取一或多個預選擇要素，該等預選擇要素包括以下中之一或多者：用於選擇該等音訊對象之一子集之一描述符、可用於自動選擇之一或多個參數、指示此預選擇所需要之編解碼能力之資料、用於使用者選擇之一文字標籤或一優先權值。
一種用於接收音訊資料之器件，該器件包含：一音訊解碼器，其係使用數位邏輯電路實施且經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；用於接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案之構件，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用；用於將該音訊串流元資料提供至該音訊解碼器之構件；用於回應於將該音訊串流元資料提供至該音訊解碼器，自該音訊解碼器接收表示該複數個音訊對象之資料之構件；用於接收選擇資料之構件，該選擇資料指示將呈現該等音訊對象中之哪些；用於基於該選擇資料而接收包括該等音訊對象之串流化媒體資料之構件，其中用於接收該串流化媒體資料之構件包含：用於使用該選擇資料判定將呈現該複數個音訊對象之該等音訊對象之哪些之構件；用於針對將呈現之該等音訊對象之每一者使用該資訊清單檔案判定該音訊對象是否經由廣播或寬頻可用之構件；及用於基於將呈現之該等音訊對象是否經由廣播或寬頻可用且來自該資訊清單檔案中規定之網路位置之該判定，經由廣播或寬頻擷取將呈現之該等音訊對象之每一者之構件；及用於將由該選擇資料指示之該等音訊對象提供至該音訊解碼器之構件。
如請求項30之器件，其中該資訊清單檔案包含一經由HTPP之動態自適性串流(DASH)媒體呈現描述(MPD)，且其中該等音訊對象經發信作為該DASH MPD中之自適應集。
如請求項30之器件，其中用於接收該經串列化媒體資料之該構件包含用於接收以下各項中之一或多者之構件：包括該等音訊對象之一單個符合MPEG-2輸送串流(TS)之節目串流、包括該等音訊對象之多個符合MPEG-2 TS之節目串流，或包括該等音訊對象之一或多個MPEG媒體輸送(MMT)資產。
如請求項30之器件，其進一步包含：用於自用於該等音訊自適應集中之每一者之該資訊清單檔案而判定該等音訊自適應集是否包含具有一特定識別符(ID)之一可完全呈現音訊呈現之構件；用於自用於該等音訊自適應集中之每一者之該資訊清單檔案而判定該音訊自適應集是否取決於一或多個其他音訊自適應集且當該音訊自適應集取決於一或多個其他音訊自適應集時判定用於該一或多個其他音訊自適應集之識別符之構件；及用於自用於該等音訊自適應集中之每一者之該資訊清單檔案而判定用於該音訊自適應集之一識別符之構件。
如請求項30之器件，其進一步包含用於自該資訊清單檔案擷取一或多個預選擇要素之構件，該等預選擇要素包括以下中之一或多者：用於選擇該等音訊對象之一子集之一描述符、可用於自動選擇之一或多個參數、指示此預選擇所需要之編解碼能力之資料、用於使用者選擇之一文字標籤或一優先權值。
一種非暫時性電腦可讀儲存媒體，其上儲存有指令，該等指令在被執行時使一接收器器件之一或多個處理器：接收描述符合MPEG-H或AC-4第2部分之複數個音訊對象的一資訊清單檔案，其中該資訊清單檔案指示該等音訊對象中之每一者是否經由廣播、寬頻或廣播與寬頻兩者可用；將該音訊串流元資料提供至一音訊解碼器，該音訊解碼器經組態以解碼符合MPEG-H或AC-4第2部分之音訊資料；回應於將該音訊串流元資料提供至該音訊解碼器，自該音訊解碼器接收表示該複數個音訊對象之資料；接收選擇資料，該選擇資料指示將呈現該等音訊對象中之哪些；基於該選擇資料而接收包括該等音訊對象之串流化媒體資料，其中使該處理器接收該串流化媒體資料之該等指令包含使該處理器進行以下之指令：使用該選擇資料判定將呈現該複數個音訊對象之該等音訊對象之哪些；針對將呈現之該等音訊對象之每一者使用該資訊清單檔案判定該音訊對象是否經由廣播或寬頻可用；及基於將呈現之該等音訊對象是否經由廣播或寬頻可用且來自該資訊清單檔案中規定之網路位置之該判定，經由廣播或寬頻擷取將呈現之該等音訊對象之每一者；及將由該選擇資料指示之該等音訊對象提供至該接收器器件之一音訊解碼器。
如請求項35之非暫時性電腦可讀儲存媒體，其中該資訊清單檔案包含一經由HTPP之動態自適性串流(DASH)媒體呈現描述(MPD)，且其中該等音訊對象經發信作為該DASH MPD中之自適應集。
如請求項35之非暫時性電腦可讀儲存媒體，其進一步包含指令，該等指令使該等處理器接收以下中之一或多者：包括該等音訊對象之一單個符合MPEG-2輸送串流(TS)之節目串流、包括該等音訊對象之多個符合MPEG-2 TS之節目串流或包括該等音訊對象之一或多個MPEG媒體輸送(MMT)資產。
如請求項35之非暫時性電腦可讀儲存媒體，其進一步包含指令，該等指令使該等處理器使用該資訊清單檔案來針對該等音訊自適應集中之每一者而判定：該等音訊自適應集是否包含具有一特定識別符(ID)之一可完全呈現音訊呈現；該音訊自適應集是否取決於一或多個其他音訊自適應集，且當該音訊自適應集取決於一或多個其他音訊自適應集時，判定用於該一或多個其他音訊自適應集之識別符；及用於該音訊自適應集之一識別符。
如請求項35之非暫時性電腦可讀儲存媒體，其進一步包含指令，該等指令使該等處理器自該資訊清單檔案擷取一或多個預選擇要素，該等預選擇要素包括以下中之一或多者：用於選擇該等音訊對象之一子集之一描述符、可用於自動選擇之一或多個參數、指示此預選擇所需要之編解碼能力之資料、用於使用者選擇之一文字標籤或一優先權值。