TW202007189A - 以後向可相容音訊傳送同步化增強式音訊傳送 - Google Patents

以後向可相容音訊傳送同步化增強式音訊傳送 Download PDF

Info

Publication number
TW202007189A
TW202007189A TW108122228A TW108122228A TW202007189A TW 202007189 A TW202007189 A TW 202007189A TW 108122228 A TW108122228 A TW 108122228A TW 108122228 A TW108122228 A TW 108122228A TW 202007189 A TW202007189 A TW 202007189A
Authority
TW
Taiwan
Prior art keywords
audio
audio data
transmission
format
stream
Prior art date
Application number
TW108122228A
Other languages
English (en)
Inventor
迪潘強 森
仕瓦帕 山卡爾 薩格德
尼爾斯 古恩瑟 彼得斯
費迪南德 奧利維里
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202007189A publication Critical patent/TW202007189A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

大體而言,描述以後向可相容音訊傳送同步化增強式音訊傳送之技術。一種包含一記憶體及一或多個處理器之器件可經組態以執行該等技術。該記憶體可儲存符合一舊式傳送格式之一後向可相容位元串流。該(等)處理器可自該後向可相容位元串流獲得一第一音訊傳送串流,且自該後向可相容位元串流獲得一第二音訊傳送串流。該(等)處理器亦可自該後向可相容位元串流獲得表示用於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的指示。該(等)處理器可基於該等指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流。該(等)處理器可基於該同步音訊資料獲得增強式音訊資料,且將該增強式音訊資料輸出至一或多個揚聲器。

Description

以後向可相容音訊傳送同步化增強式音訊傳送
本發明係關於處理音訊資料。
高階立體混響(higher order ambisonic;HOA)信號(常由複數個球諧係數(spherical harmonic coefficients;SHC)或其他階層元素表示)為音場之三維(3D)表示。HOA或SHC表示可按獨立於用以播放自此SHC信號顯現之多聲道音訊信號的局部揚聲器幾何佈置之方式來表示此音場。SHC信號亦可促進後向相容性,此係因為可將SHC信號顯現為熟知且被高度採用之多聲道格式(諸如,5.1音訊聲道格式或7.1音訊聲道格式)。SHC表示因此可實現音場之更好表示,其亦適應後向相容性。
本發明大體上係關於產生內嵌增強式音訊傳送的後向可相容位元串流,該後向可相容位元串流可允許由增強式音訊傳送(相對於符合舊式音訊格式之舊式音訊傳送,該等舊式音訊格式諸如單聲道音訊格式、立體聲音訊格式及可能甚至一些環繞聲格式,包含5.1環繞聲格式作為一個實例)表示的音場的更高解析度再生。經組態以使用舊式音訊格式中之一或多者再生音場的舊式音訊播放系統可處理後向可相容位元串流,由此維持後向相容性。
經組態以使用增強式音訊格式(諸如一些環繞聲格式,作為一個實例,包括7.1環繞聲格式或7.1環繞聲格式加一或多個基於高度的音訊源--7.1+4H)再生音場之增強式音訊播放系統可利用增強式音訊傳送以增強(或換言之)擴展舊式音訊傳送,從而支援音場之增強再生。因此,技術可使得後向可相容音訊位元串流支援舊式音訊格式及增強式音訊格式兩者。
技術的其他態樣可實現增強式音訊傳送與舊式音訊傳送之間的同步以確保音場的恰當再生。時間同步技術之各種態樣可使得增強式音訊播放系統能夠識別對應於增強式音訊傳送之部分的舊式音訊傳送之音訊部分。增強式音訊播放系統接著可基於增強式音訊傳送之對應部分以並不注入音訊假影或另外引起音訊假影的方式增強或另外擴展舊式音訊傳送之部分。
就此而言,技術可促進使得舊式音訊播放系統能夠保持使用之後向相容性,同時亦促進可相對於經由舊式音訊格式達成之音場再生改良音場再生之解析度的增強式音訊格式的採用。促進增強式音訊格式的採用可引起更逼真的音訊體驗而不使舊式音訊系統過時。技術可因此維持舊式音訊播放系統再生音場之能力,由此改良或至少維持舊式音訊播放系統,同時亦經由使用增強式音訊播放系統實現音場再生的演進。因此,該等技術改良舊式音訊播放系統及增強式音訊播放系統兩者自身之操作。
在一個實例中,技術涉及一種器件,其經組態以處理一後向可相容位元串流,該器件包含:一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及一或多個處理器,其經組態以:自該後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料;自該後向可相容位元串流獲得增強該舊式音訊資料之擴展音訊資料;基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種處理符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含:自該後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料;自該後向可相容位元串流獲得增強該舊式音訊資料之擴展音訊資料;基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種經組態以處理符合一舊式傳送格式之一後向可相容位元串流的器件,該器件包含:用於自該後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料的構件;用於自該後向可相容位元串流獲得增強該舊式音訊資料之擴展音訊資料的構件;用於基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料的構件;及用於將該增強式音訊資料輸出至一或多個揚聲器的構件。
在另一實例中,該等技術涉及一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:自符合一舊式傳送格式之一後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料;自該後向可相容位元串流獲得增強該舊式音訊資料之擴展音訊資料;基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種經組態以獲得一後向可相容位元串流之器件,該器件包含:一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及一或多個處理器,其經組態以:在該後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料;在該後向可相容位元串流中指定增強該舊式音訊資料之擴展音訊資料;及輸出該位元串流。
在另一實例中,該等技術涉及一種處理符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含:在該後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料;在該後向可相容位元串流中指定增強該舊式音訊資料之擴展音訊資料;及輸出該後向可相容位元串流。
在另一實例中,該等技術涉及一種經組態以處理符合一舊式傳送格式之一後向可相容位元串流的器件,該器件包含:用於在該後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料的構件;用於在該後向可相容位元串流中指定增強該舊式音訊資料之擴展音訊資料的構件;及用於輸出該後向可相容位元串流的構件。
在另一實例中,該等技術涉及一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:在符合一舊式傳送格式之一後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料;在該後向可相容位元串流中指定增強該舊式音訊資料之擴展音訊資料;及輸出該後向可相容位元串流。
在另一實例中,該等技術涉及一種經組態以處理一後向可相容位元串流之器件,該器件包含:一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及一或多個處理器,其經組態以:自該後向可相容位元串流獲得表示第一音訊資料之一第一音訊傳送串流;自該後向可相容位元串流獲得表示第二音訊資料之一第二音訊傳送串流;自該後向可相容位元串流獲得表示用於該第一音訊傳送串流及該第二音訊傳送串流中之一或多者的同步化資訊的一或多個指示;基於表示該同步化資訊之該一或多個指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流;基於該同步音訊資料獲得增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種處理符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含:自該後向可相容位元串流獲得表示第一音訊資料之一第一音訊傳送串流;自該後向可相容位元串流獲得表示第二音訊資料之一第二音訊傳送串流;自該後向可相容位元串流獲得識別用於該第一音訊傳送串流及該第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示;基於表示該同步化資訊之該一或多個指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流;基於該同步音訊資料獲得增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種經組態以處理符合一舊式傳送格式之一後向可相容位元串流的器件,該器件包含:用於自該後向可相容位元串流獲得表示第一音訊資料之一第一音訊傳送串流的構件;用於自該後向可相容位元串流獲得表示第二音訊資料之一第二音訊傳送串流的構件;用於自該後向可相容位元串流獲得識別用於該第一音訊傳送串流及該第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示的構件;用於基於該同步化資訊之該一或多個指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流的構件;用於基於該同步音訊資料獲得增強式音訊資料的構件;及用於將該增強式音訊資料輸出至一或多個揚聲器的構件。
在另一實例中,該等技術涉及一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:自符合一舊式傳送格式之一後向可相容位元串流獲得表示第一音訊資料之一第一音訊傳送串流;自該後向可相容位元串流獲得表示第二音訊資料之一第二音訊傳送串流;自該後向可相容位元串流獲得識別用於該第一音訊傳送串流及該第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示;基於該同步化資訊之該一或多個指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流;基於該同步音訊資料獲得增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種經組態以獲得一後向可相容位元串流之器件,該器件包含:一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及一或多個處理器,其經組態以:在該後向可相容位元串流中指定表示第一音訊資料之一第一音訊傳送串流;在該後向可相容位元串流中指定表示第二音訊資料之一第二音訊傳送串流;在該後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示;及輸出該後向可相容位元串流。
在另一實例中,該等技術涉及一種獲得符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含:在該後向可相容位元串流中指定表示第一音訊資料之一第一音訊傳送串流;在該後向可相容位元串流中指定表示第二音訊資料之一第二音訊傳送串流;在該後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示;及輸出該後向可相容位元串流。
在另一實例中,該等技術涉及一種經組態以獲得符合一舊式傳送格式之一後向可相容位元串流的器件,該器件包含:用於在該後向可相容位元串流中指定表示第一音訊資料之一第一音訊傳送串流的構件;用於在該後向可相容位元串流中指定表示第二音訊資料之一第二音訊傳送串流的構件;用於在該後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示的構件;及用於輸出該後向可相容位元串流的構件。
在另一實例中,該等技術涉及一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:在符合一舊式傳送格式之一後向可相容位元串流中指定表示第一音訊資料的一第一音訊傳送串流;在該後向可相容位元串流中指定表示第二音訊資料之一第二音訊傳送串流;在該後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示;及輸出該後向可相容位元串流。
在另一實例中,該等技術涉及一種經組態以處理一後向可相容位元串流的器件,該器件包含:一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及一或多個處理器,其經組態以:自該後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料;自該後向可相容位元串流獲得一空間格式化擴展音訊串流;處理該空間格式化擴展音訊串流以獲得增強該舊式音訊資料之擴展音訊資料;基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式的增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種處理符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含:自該後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料;自該後向可相容位元串流獲得一空間格式化擴展音訊串流;處理該空間格式化擴展音訊串流以獲得增強該舊式音訊資料之擴展音訊資料;基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種經組態以處理符合一舊式傳送格式之一後向可相容位元串流的器件,該器件包含:用於自該後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料的構件;用於自該後向可相容位元串流獲得一空間格式化擴展音訊串流的構件;用於處理該空間格式化擴展音訊串流以獲得增強該舊式音訊資料之擴展音訊資料的構件;用於基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料的構件;及用於將該增強式音訊資料輸出至一或多個揚聲器的構件。
在另一實例中,該等技術涉及一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:自符合一舊式傳送格式之一後向可相容位元串流獲得符合一舊式音訊格式之舊式音訊資料;自該後向可相容位元串流獲得一空間格式化擴展音訊串流;處理該空間格式化擴展音訊串流以獲得增強該舊式音訊資料之擴展音訊資料;基於該舊式音訊資料及該擴展音訊資料獲得符合一增強式音訊格式之增強式音訊資料;及將該增強式音訊資料輸出至一或多個揚聲器。
在另一實例中,該等技術涉及一種經組態以獲得一後向可相容位元串流之器件,該器件包含:一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及一或多個處理器,其經組態以:在該後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料;處理增強該舊式音訊資料之擴展音訊資料以獲得一空間格式化擴展音訊串流;在該後向可相容位元串流中指定該空間格式化擴展音訊串流;及輸出該位元串流。
在另一實例中,該等技術涉及一種處理符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含:在該後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料;處理增強該舊式音訊資料之擴展音訊資料以獲得一空間格式化擴展音訊串流;在該後向可相容位元串流中指定該空間格式化擴展音訊串流;及輸出該位元串流。
在另一實例中,該等技術涉及一種經組態以處理符合一舊式傳送格式之一後向可相容位元串流的器件,該器件包含:用於在該後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料的構件;用於處理增強該舊式音訊資料之擴展音訊資料以獲得一空間格式化擴展音訊串流的構件;用於在該後向可相容位元串流中指定該空間格式化擴展音訊串流的構件;及用於輸出該位元串流的構件。
在另一實例中,該等技術涉及一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:在符合一舊式傳送格式之一後向可相容位元串流中指定符合一舊式音訊格式之舊式音訊資料;處理增強該舊式音訊資料之擴展音訊資料以獲得一空間格式化擴展音訊串流;在該後向可相容位元串流中指定該空間格式化擴展音訊串流;及輸出該位元串流。
在隨附圖式及以下描述中闡述本發明之一或多個實例之細節。技術之各個態樣之其他特徵、目標及優勢將自描述及圖式以及自申請專利範圍顯而易見。
本申請案主張2018年7月3日申請之美國臨時申請案第62/693,784號的權益,該臨時申請案之全部內容以全文引用之方式併入本文中。
在市場中存在各種「環繞聲」聲道式格式。舉例而言,其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至NHK (日本廣播協會或日本廣播公司)所開發之22.2系統。內容創建者(例如,好萊塢工作室,其亦可被稱作內容提供商)希望一次製作電影之音軌,而不花費精力來針對每一揚聲器組態對其進行重混。運動圖像專家組(MPEG)已發佈一標準,該標準允許音場使用元素(例如,高階立體混響HOA係數)之階層集合來表示,對於大多數揚聲器組態(包括無論在由各種標準定義之位置中或在不均勻位置中的5.1及22.2組態),該等元素之集合可顯現至揚聲器饋入。
MPEG發佈如MPEG-H 3D音訊標準(由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC DIS 23008-3,正式地標題為「Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio」,且日期為2014年7月25日)之標準。MPEG亦發佈3D音訊標準之第二版本(由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC 23008-3:201x(E),標題為「Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio」,且日期為2016年10月12日)。在本發明中對「3D音訊標準」之參考可指上述標準中之一者或兩者。
如上文所提及,元素之階層集合的一個實例為球諧係數(SHC)之集合。以下表達式表明使用SHC對音場之描述或表示:
Figure 02_image001
表達式展示在時間t 處,音場之任一點
Figure 02_image003
處的壓力pi 可由SHC,
Figure 02_image005
唯一地表示。此處,
Figure 02_image007
c 為聲音之速度(~343 m/s),
Figure 02_image009
為參考點(或觀測點),
Figure 02_image011
為階數n 之球貝塞爾函數,且
Figure 02_image013
為階數n 及子階數m 之球諧基底函數(其亦可被稱作球基底函數)。可認識到,方括弧中之項為信號之頻域表示(亦即,
Figure 02_image015
),其可藉由各種時間-頻率變換(諸如,離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層組之其他實例包括數組小波變換係數及其他數組多解析度基底函數係數。
圖1為說明自零階(n = 0)至四階(n = 4)之球諧基底函數的圖。如可見,對於每一階而言,存在m 子階之擴展,出於易於說明之目的,在圖1之實例中展示該等子階但未顯式地註釋。
可由各種麥克風陣列組態實體地獲取(例如記錄) SHC
Figure 02_image017
,或可替代地,其可自音場之基於聲道或基於物件的描述導出。SHC (其亦可被稱為高階立體混響HOA係數)表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2 個(25,且因此為四階)係數之四階表示。
如上文所陳述,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti, M之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於物件之描述導出SHC,考慮以下方程式。可將對應於個別音訊物件之音場之係數
Figure 02_image017
表達為:
Figure 02_image019
, 其中i為
Figure 02_image021
Figure 02_image023
為n階之球漢克爾(Hankel)函數(第二種類),且
Figure 02_image025
為物件之位置。知曉隨頻率變化之物件源能量
Figure 02_image027
(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM物件及對應位置轉換成SHC
Figure 02_image029
。另外,可展示(由於上式為線性及正交分解):每一物件之
Figure 02_image031
係數為相加性的。以此方式,若干PCM物件可由
Figure 02_image029
係數(例如,作為個別物件之係數向量的總和)來表示。基本上,該等係數含有關於音場之資訊(作為3D座標之函數的壓力),且上式表示在觀測點
Figure 02_image034
附近自個別物件至總音場之表示的變換。下文在基於SHC之音訊寫碼的上下文中描述剩餘圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統10的圖。如圖2之實例中所示,系統10包括內容創建者系統12及內容消費者14。雖然在內容創建者系統12及內容消費者14之上下文中描述,但可在音場之SHC (其亦可被稱作HOA係數)或任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何上下文中實施該等技術。此外,內容創建者系統12可表示包含能夠實施本發明中所描述之技術的任何形式的計算器件中之一或多者的系統,該等計算器件包括用以提供若干實例之手持機(或蜂巢式電話,包括所謂的「智慧型電話」)、平板電腦、膝上型電腦、桌上型電腦,或專用硬體。同樣地,內容消費者14可表示能夠實施本發明中所描述之技術的任何形式的計算器件,該等計算器件包括用以提供若干實例的手持機(或蜂窩式電話,包括所謂的「智慧型電話」)、平板電腦、電視、機上盒、膝上型電腦、遊戲系統或控制台,或桌上型電腦。
內容創建者網路12可表示可藉由內容消費者,諸如內容消費者14針對消耗產生多聲道音訊內容及可能地視訊內容的任何實體。內容創建者系統12可在事件,諸如體育事件處捕捉實時音訊資料,同時亦將各種其他類型之額外音訊資料,諸如解說音訊資料、廣告音訊資料、介紹或退場音訊資料等插入至實時音訊內容中。
內容消費者14表示擁有或可存取音訊播放系統的個體,該音訊播放系統可指代能夠將高階立體混響音訊資料(其包括高階音訊係數,同樣亦可被稱作球諧係數)顯現為揚聲器饋入以供作為所謂的「多聲道音訊內容」播放的任何形式之音訊播放系統。高階立體混響音訊資料可定義於球諧域中且經顯現或以其他方式自球諧域變換至空間域,從而產生呈一或多個揚聲器饋入形式之多聲道音訊內容。在圖2之實例中,內容消費者14包括音訊播放系統16。
內容創建者系統12包括記錄或以其他方式獲得呈各種格式(包括直接如HOA係數)的實時記錄及音訊物件的麥克風5。當麥克風陣列5 (其亦可被稱作「麥克風5」)獲得直接如HOA係數的實時音訊時,麥克風5可包括HOA轉碼器,諸如圖2的實例中展示的HOA轉碼器400。
換言之,儘管示出為與麥克風5分離,但HOA轉碼器400之分離例項可包括在麥克風5中之每一者內,以便將所捕捉饋入自然地轉碼成HOA係數11。然而,當並未包括在麥克風5內時,HOA轉碼器400可將自麥克風5輸出之即時饋入轉碼成HOA係數11。就此而言,HOA轉碼器400可表示經組態以將麥克風饋入及/或音訊物件轉碼成HOA係數11的單元。內容創建者系統12因此包括HOA轉碼器400與麥克風5整合、HOA轉碼器與麥克風5分離,或其某一組合。
內容創建者系統12亦可包括空間音訊編碼器件20、位元速率分配單元402,及音質音訊編碼器件406。空間音訊編碼器件20可表示能夠執行本發明中關於HOA係數11描述之壓縮技術以獲得中間格式化音訊資料15 (當內容創建者系統12表示如下文更詳細地描述之廣播網路時其亦可被稱作「夾層格式化音訊資料15」)的器件。中間格式化音訊資料15可表示使空間音訊壓縮技術壓縮但尚未經歷音質音訊編碼(例如進階音訊寫碼-AAC,或其他類似類型之音質音訊編碼,包括各種增強之AAC (eAAC),諸如高效率AAC-HE-AAC-HE-AAC v2,其亦稱為eAAC+等)的音訊資料。儘管下文更詳細地描述,但空間音訊編碼器件20可經組態以藉由對於HOA係數11至少部分地執行分解(諸如下文更詳細地描述之線性分解)而對於HOA係數11執行此中間壓縮。
空間音訊編碼器件20可經組態以使用線性可逆變換(linear invertible transform;LIT)之分解有關應用來壓縮HOA係數11。線性可逆變換的一個實例被稱作「單一值分解」(或「SVD」),其可表示線性分解的一種形式。在此實例中,空間音訊編碼器件20可將SVD應用於HOA係數11以判定HOA係數11之經分解版本。HOA係數11之經分解版本可包括主要音訊信號中之一或多者及一或多個對應空間分量,該一或多個對應空間分量描述相關聯主要音訊信號之方向、形狀及寬度。空間音訊編碼器件20可分析HOA係數11之經分解版本以識別可促進進行HOA係數11之經分解版本之重新排序的各種參數。
空間音訊編碼器件20可基於所識別之參數將HOA係數11之經分解版本重新排序,其中如下文更詳細地描述,在給定以下情形之情況下,此重新排序可改良寫碼效率:變換可將HOA係數跨越HOA係數之訊框重新排序(其中一訊框通常包括HOA係數11之M個樣本且在一些實例中,M經設定為1024)。在將HOA係數11之經分解版本重新排序之後,空間音訊編碼器件20可選擇表示音場之前景(或,換言之,相異的、主要或突出的)分量的HOA係數11之經分解版本之彼等。空間音訊編碼裝置20可將表示前景分量的HOA係數11之經分解版本指定為音訊物件(其亦可被稱作「主要聲音信號」或「主要聲音分量」)及相關聯方向資訊(其亦可被稱作「空間分量」或在一些個例中,被稱作所謂的「V向量」)。
空間音訊編碼器件20接著可關於HOA係數11執行音場分析以便至少部分地識別表示音場之一或多個背景(或,換言之,環境)分量之HOA係數11。空間音訊編碼器件20可在給定以下情形之情況下關於背景分量執行能量補償:在一些實例中,背景分量可能僅包括HOA係數11之任何給定樣本之一子集(例如,諸如對應於零階及一階球基底函數之HOA係數11,而非對應於二階或高階球基底函數之HOA係數11)。換言之,當執行降階時,空間音訊編碼器件20可擴增(例如,添加能量/減去能量) HOA係數11中之剩餘背景HOA係數以補償由於執行降階而導致的總體能量之改變。
空間音訊編碼器件20可關於前景方向資訊執行一種形式之內插,且接著關於經內插前景方向資訊執行一降階以產生經降階之前景方向資訊。在一些實例中,空間音訊編碼器件20可進一步關於經降階之前景方向資訊執行量化,從而輸出經寫碼前景方向資訊。在一些情況下,此量化可包含純量/熵量化。空間音訊編碼器件20接著可輸出中間格式化音訊資料15作為背景分量、前景音訊物件及經量化方向資訊。
在一些實例中,背景分量及前景音訊物件可包含經脈碼調變(PCM)傳送聲道。亦即,空間音訊編碼器件20可輸出包括用於背景分量中之一各別者的HOA係數11之每一訊框(例如對應於零階或一階球基底函數之HOA係數11中之一者的M個樣本)及用於前景音訊物件之每一訊框(例如自HOA係數11分解的音訊物件之M個樣本)的傳送聲道。空間音訊編碼器件20可進一步輸出包括對應於前景音訊物件中之每一者的空間分量的旁側資訊(其亦可被稱作「旁頻帶資訊」)。共同地,傳送聲道及旁側資訊可在圖1的實例中表示為中間格式化音訊資料15。換言之,中間格式化音訊資料15可包括傳送聲道及旁側資訊。
空間音訊編碼器件20接著可將中間格式化音訊資料15傳輸或以其他方式輸出至音質音訊編碼器件406。音質音訊編碼器件406可對於中間格式化音訊資料15執行音質音訊編碼以產生位元串流21。內容創建者系統12接著可經由傳輸聲道將位元串流21傳輸至內容消費者14。
在一些實例中,音質音訊編碼器件406可表示音質音訊寫碼器的多個例項,其中之每一者用於編碼中間格式化音訊資料15之傳送聲道。在一些情況下,此音質音訊編碼器件406可表示進階音訊寫碼(AAC)編碼單元之一或多個例項。在一些情況下,音質音訊寫碼器單元406可調用用於中間格式化音訊資料15之每一傳送聲道的AAC編碼單元之例項。
關於可如何使用AAC編碼單元對背景球諧係數進行編碼之更多資訊可見於Eric Hellerud等人的標題為「Encoding Higher Order Ambisonics with AAC」的大會論文中,其在第124次大會(2008年5月17日至20日)上提交且可在下處獲得:http://ro.uow.edu.au/cgi/ viewcontent.cgi?article=8025&context=engpapers。在一些情況下,音質音訊編碼器件406可使用比用以編碼中間格式化音訊資料15之其他傳送聲道(例如用於前景音訊物件之傳送聲道)低的目標位元速率對中間格式化音訊資料15之各種傳送聲道(例如用於背景HOA係數之傳送聲道)進行音訊編碼。
雖然在圖2中經展示為直接傳輸至內容消費者14,但內容創建者系統12可將位元串流21輸出至定位於內容創建者系統12與內容消費者14之間的中間器件。中間器件可儲存位元串流21以供稍後遞送至可請求此位元串流之內容消費者14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。該中間器件可駐留於能夠將位元串流21 (且可能結合傳輸對應視訊資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如,內容消費者器件14)的內容遞送網路中。
替代地,內容創建者系統12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸聲道可涉及藉以傳輸儲存至此等媒體之內容的彼等聲道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖2之實例。
如圖2之實例中進一步展示,內容消費者14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同音訊顯現器22。音訊顯現器22可各自提供不同形式之顯現,其中不同形式之顯現可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
在一些情況下,音訊播放系統16可包括能夠自符合舊式音訊格式之音訊資料(包括音訊信號)再生音場的舊式音訊播放系統。舊式音訊格式之實例包括立體聲音訊格式(具有左聲道及右聲道)、立體聲音訊格式加(除左聲道及右聲道以外,具有低頻效應聲道)、5.1環繞聲格式(具有左前及右前聲道、中心聲道、左後及右後聲道,及低頻效應聲道)等。
音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以自位元串流21解碼HOA係數11' (其亦可被稱作HOA音訊資料11')之器件,其中HOA音訊資料11'可與HOA係數11 (其亦可被稱作HOA音訊資料11)類似但歸因於有損操作(例如,量化)及/或在經由傳輸聲道傳輸期間注入之雜訊而不同。
亦即,音訊解碼器件24可將位元串流21中所指定之前景方向資訊解量化,同時亦關於位元串流21中所指定之前景音訊物件及表示背景分量之經編碼HOA係數執行音質解碼。音訊解碼器件24可進一步關於經解碼前景方向資訊執行內插,且接著基於經解碼前景音訊物件及經內插前景方向資訊判定表示前景分量之HOA係數。音訊解碼器件24接著可基於所判定之表示前景分量的HOA係數及表示背景分量之經解碼HOA係數判定HOA音訊資料11'。
音訊播放系統16可在解碼位元串流21以獲取HOA音訊資料11'之後顯現HOA音訊資料11'以輸出揚聲器饋入25A。音訊播放系統15可將揚聲器饋入25A輸出至揚聲器3中之一或多者。揚聲器饋入25A可驅動一或多個擴音器3。
為了選擇適當顯現器或在一些情況下產生適當顯現器,音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何結構的揚聲器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風獲得擴音器資訊13且以便於動態地判定揚聲器資訊13之方式驅動揚聲器(其可包括擴音器)。在其他情況下,或結合揚聲器資訊13之動態判定,音訊播放系統16可促使使用者與音訊播放系統16進行交流且輸入揚聲器資訊13。
音訊播放系統16可基於揚聲器資訊13選擇音訊顯現器22中之一者。在一些情況下,在音訊顯現器22中無一者處於至揚聲器資訊13中所指定之揚聲器幾何結構之某一臨限值類似性度量(就揚聲器幾何結構而言)內時,音訊播放系統16可基於揚聲器資訊13產生音訊顯現器22中之一者。音訊播放系統16在一些情況下可基於揚聲器資訊13產生音訊顯現器22中的一者,而不首先嘗試選擇音訊顯現器22中的現有一者。
在將揚聲器饋入25A輸出至頭戴式耳機時,音訊播放系統16可利用音訊顯現器22中之一者,該等音訊顯現器使用頭相關變換函數(HRTF)或能夠顯現頭戴式耳機揚聲器播放之左側及右側揚聲器饋入25A的其他函數來提供雙耳顯現。術語「揚聲器」或「換能器」一般可指任何揚聲器,包括擴音器、頭戴式耳機揚聲器等。一或多個揚聲器可隨後播放顯現之揚聲器饋入25A。
儘管描述為自HOA音訊資料11'顯現揚聲器饋入25A,但對揚聲器饋入25A之顯現的參考可指其他類型之顯現,諸如直接併入至自位元串流21對HOA音訊資料11'之解碼中的顯現。替代顯現之一實例可發現於MPEG-H 3D音訊寫碼標準之Annex G中,其中顯現發生於在音場合成之前的主要信號形成及背景信號形成期間。因此,對HOA音訊資料11'之顯現的參考應理解為對實際HOA音訊資料11'之顯現或分解兩者或其HOA音訊資料11' (諸如上文所指出之主要音訊信號、環境HOA係數及/或基於向量之信號--其亦可稱作V向量)之表示的參考。
如上文所提及,音訊播放系統16可表示僅自上文所提及之舊式音訊格式再生音場之舊式音訊播放系統。為了允許後向相容性,音訊顯現器22中之各者可將HOA音訊資料15顯現為符合舊式音訊格式之揚聲器饋入25A。舉例而言,顯現器22中之一者可表示經組態以將HOA音訊資料15或其部分轉換成符合立體聲音訊格式之揚聲器饋入25A的B格式至A格式(B2A)轉換器。B格式係指包括對應於一階及零階球基底函數之HOA係數的HOA音訊資料的一部分,其亦可被稱作一階立體混響(FOA)信號。A格式表示立體聲音訊格式。儘管本文中主要關於立體聲音訊格式進行描述,但技術可關於任何舊式音訊格式(與最近引入之立體混響音訊格式相比為舊式的,其亦可被稱作基於場景之音訊格式)而應用。
存在多個不同的B2A轉換器。B2A轉換器之一個實例為上文提及之MPEG-H 3D音訊寫碼標準中所闡述的模式矩陣。B2A轉換器之另一實例為CODVRA轉換器,其更詳細地描述於由Dolby Laboratories公司編寫的文件(題為「Encoding First-Order Ambisonics with HE-AAC」,且日期為2017年10月13日)中。又一轉換器為UHJ矩陣轉換。
作為另一實例,音場表示產生器302可獲得A格式(自內容捕捉器件300或藉由顯現B格式)且除B格式以外在位元串流21中指定A格式,而非自B格式顯現A格式。指定A格式及B格式兩者之此程序被稱作聯播。
在以上情況下,存在多個缺陷。B2A轉換器及聯播在B2A轉換藉由所選顯現器或藉由內容捕捉器件300所提供之物固定的意義上皆為「固定」的。換言之,B2A轉換器及聯播在兩者皆為時間恆定的且無法由內容提供商個人化的意義上為固定的。B2A轉換器及聯播之固定性質可潛在地限制內容建立者個人化立體聲混合且提供對舊式音訊播放系統之良好體驗的能力。此外,聯播可減小可用於表示位元串流21中之HOA音訊資料15的頻寬,由此以改良舊式音訊播放系統之體驗為代價犧牲HOA音訊資料15之品質。
音訊播放系統16可以亦允許符合舊式音訊格式之後向可相容音訊信號25B (其亦可被稱作揚聲器饋入25B)的可組態產生的方式將HOA音訊資料11'顯現成揚聲器饋入25A。亦即,HOA音訊編碼器20可分配位元以用於指定可適用於產生能夠藉由舊式播放系統(例如,經組態以呈現立體聲音訊信號之音訊播放系統)再生之後向可相容音訊信號25B的一或多個參數。
內容創建者網路12可提供此等參數且產生具有改進後向相容性(就使用者感受而言)的位元串流21而不潛在地減少分配至基礎音場的頻寬(例如,經分配用於表示HOA音訊資料之經壓縮版本的位元)。就此而言,內容創建者網路12可實現舊式音訊播放系統之更佳(就使用者感受而言)音訊播放,由此改良音訊播放系統自身之操作。
在操作中,空間音訊編碼器件20可輸出中間格式化音訊資料15,該中間格式化音訊資料可包括指定環境HOA音訊資料(諸如背景HOA係數)及任何主要音訊信號之一或多個傳送聲道及指定主要音訊信號之空間特性(例如,上方所提及之V向量)的旁側資訊。混合單元404可獲得中間格式化音訊資料15且擷取環境HOA音訊資料(諸如對應於零階球基底函數(大體由變數W表示)及三個一階球基底函數(其由變數X、Y及Z表示)的任何組合的HOA係數)。
在一些情況下,高階立體混響音訊資料之第一部分可包括指示對應於零階球基底函數(W)之第一係數的資料。在此情況及其他情況下,高階立體混響音訊資料之第一部分包含指示對應於零階球基底函數之第一係數的資料及對應於一階球基底函數之第二係數。
混合單元404可表示經組態以處理環境HOA音訊資料以獲得符合舊式音訊格式(諸如上文所列的及其他未列出的實例中的任一者)之舊式音訊資料25B。混合單元404可獲得參數403,該等參數識別將如何自高階立體混響音訊資料的一部分(例如,上述之環境HOA音訊資料)獲得舊式音訊資料25B。聲音工程師或其他操作員可指定參數403,或混合單元404可應用評估環境HOA音訊資料且自動地產生參數403之一或多個演算法。在任何情況下,混合單元404可自環境HOA音訊資料且基於參數403獲得舊式音訊資料25B。
在一些情況下,混合單元404可基於參數403獲得混合資料。作為一個實例,混合資料可包括混合矩陣,混合單元404可將混合矩陣應用於環境HOA音訊資料以獲得舊式音訊資料25B。以此方式,混合單元404可基於混合資料處理環境HOA音訊資料以獲得舊式音訊資料25B。
混合單元404可在包括高階立體混響音訊資料之第二部分的中間格式化音訊資料15 (其亦可被稱作位元串流15)中指定舊式音訊資料25B及一或多個參數403。高階立體混響音訊資料之第二部分可包括一或多個額外環境HOA係數之經壓縮版本,及主要聲音訊號之經壓縮版本以及表示空間特性之經壓縮版本的旁側資訊。高階立體混響音訊資料之第二部分可包括表示對應於球基底函數之一或多個係數的資料,高階立體混響音訊資料之第一部分的一或多個係數並不對應於該等球基底函數(潛在地呈主要音訊信號及對應空間特性的形式)。
混合單元404可根據以下實例語法表指定參數403:
Figure 108122228-A0304-0001
如前述語法表中所示,參數403可包括「StereoSpread」語法元素、「BeamCharacter」語法元素、「hasAngleOffset」語法元素、「azimuthAngleOffset」語法元素,及「elevationAngleOffset」語法元素。
StereoSpread語法元素可表示可識別在獲得舊式音訊資料25B時使用之聲源之間的寬度之立體聲擴散參數。BeamCharacter語法元素可表示識別用於獲得舊式音訊資料25B之一種類型的虛擬麥克風波束的波束字元參數。波束字元參數可參考最有效點識別來自後部(或換言之,背部)之聲音的不同層級的衰減。波束字元參數可限定用於立體聲混合之一種類型的「虛擬麥克風波束」。
hasAngleOffset語法元素表示指示azimuthAngleOffset語法元素及elevationAngleOffset語法元素是否存在於位元串流中之語法元素。azimuthAngleOffset語法元素及elevationAngleOffset語法元素中之每一者可表示識別在獲得角度偏移參數時使用之聲源之間的角度(分別為方位角及仰角)的角度偏移參數,該參數識別用於獲得舊式音訊資料25B之一種類型的虛擬麥克風波束。此等角度偏移參數可指示波束如何「以方位角及仰角為中心」。
混合單元404亦可獲得指示如何處理舊式音訊資料25B以獲得環境HOA音訊資料之去混合資料。混合單元404可基於混合資料判定去混合資料。在混合資料為混合矩陣的情況下,混合單元404可獲得去混合資料作為混合矩陣之反相(或偽逆)矩陣。混合資料包括表示將M個輸入信號轉換成N個輸出信號之混合矩陣的混合資料,其中M並不等於N。混合單元404可在包括音訊資料之第二部分的位元串流15中指定舊式音訊資料25B (如上文所提到)及去混合資料。
混合單元404可如以下實例語法表中所列指定去混合資料:
Figure 108122228-A0304-0002
如上文語法表中所示,去混合資料(由矩陣「D」表示)可依據bitDepthIdx語法元素、rowIdx語法元素及colIdx語法元素而指定。bitDepthIdx可定義由D表示之去混合矩陣之每一矩陣係數的位元深度。rowIdx語法元素可識別去混合矩陣中之多個列,而colIdx語法元素可識別去混合矩陣中之多個行。
儘管展示為完全指定去混合矩陣之每一列及行的每一矩陣係數,但混合單元404可試圖經由應用壓縮減小位元串流15中明確指定的矩陣係數之數目,壓縮利用可在去混合矩陣中出現的稀疏性及/或對稱性質。亦即,去混合資料可包括指示去混合矩陣之稀疏性的稀疏性資訊,混合單元404可指定稀疏性資訊以便傳信各種矩陣係數不在位元串流15中指定。關於混合單元404可如何獲得稀疏性資訊且由此減小位元串流15中指定之矩陣係數的數目之更多資訊可見於美國專利第9,609,452號中,其題為「OBTAINING SPARSENESS INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO RENDERERS」,於2017年3月28日發佈。
在一些實例中及結合稀疏性資訊或作為稀疏性資訊之替代,去混合資料亦可包括指示去混合矩陣之對稱性的對稱性資訊,混合單元404可指定對稱性資訊以便發信各種矩陣係數不在位元串流15中指定。對稱性資訊可包括指示去混合矩陣之值對稱性的值對稱性資訊及/或指示去混合矩陣之正負號對稱性的正負號對稱性資訊。關於混合單元404可如何獲得稀疏性資訊且由此減小位元串流15中指定之矩陣係數的數目之更多資訊可見於美國專利第9,883,310號中,其題為「OBTAINING SYMMETRY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO RENDERERS」,於2018年1月30日發佈。
在任何情況下,混合單元404可以上文描述之方式產生位元串流17作為更新或以其他方式修改位元串流15之結果。混合單元404可將混合單元404輸出至音質音訊編碼器件406。
如上文所描述,音質音訊編碼器件406可執行音質音訊編碼,諸如AAC、增強之AAC (eAAC)、高效AAC (HE-AAC)、HE-AACv2.0 (亦被稱作eAAC+)及其類似者,以產生符合傳送格式之位元串流21。為維持與舊式音訊播放系統之後向相容性,音質音訊編碼器件406可產生遵守舊式傳送格式(諸如由應用上文音質音訊編碼程序中之任一者產生的彼等)之位元串流21。因此,關於位元串流17執行之音質音訊編碼類型可被稱為舊式傳送格式。
然而,分開地編碼位元串流17之每一傳送聲道可導致各種低效率。舉例而言,在AAC (其可指代AAC或上述AAC之變體中之任一者)中,音質音訊編碼器件406可指定每一傳送聲道之訊框以及多個填充元素以解決訊框大小之間的差別(且由此潛在地維持瞬時位元率或幾乎瞬時位元率)。此等填充元素並不表達音訊資料之任何態樣且僅為填充符,其可導致頻寬(就記憶體頻寬及可能的網路頻寬兩者而言對於內容創建者系統12自身)及/或儲存空間的浪費。
根據本發明中描述之技術的各種態樣,音質音訊編碼器件406可在位元串流21 (其可表示符合舊式音訊傳送之後向可相容位元串流的一個實例)中指定舊式音訊資料25B。音質音訊編碼器件406隨後可在後向可相容位元串流21中指定增強舊式音訊資料之擴展音訊資料。擴展音訊資料可包括表示高階立體混響音訊資料11之音訊資料,諸如對應於具有大於零或一之階數之球基底函數的一或多個高階立體混響係數。作為一個實例,擴展音訊資料可藉由提高由舊式音訊資料25B表示之音場的解析度增強舊式音訊資料25B,且由此准許額外揚聲器饋入25A (包括在音場再生中提供高度之彼等)針對增強式播放系統16經顯現。
擴展音訊資料可包括位元串流17中事先指定之傳送聲道。因此,音質音訊編碼器件406可至少部分地藉由以與本發明中所描述之技術的各種態樣一致之方式編碼現有傳送聲道且在後向可相容位元串流21中指定編碼聲道而在後向可相容位元串流21中指定擴展音訊資料。有關音質音訊編碼器件406可如何指定擴展音訊資料11之其他資訊關於圖6A及圖6B之實例提供。
圖6A及圖6B為說明在執行本發明中所描述之技術的各種態樣時圖2之內容創建者系統的方塊圖。首先參考圖6A之實例,內容創建者系統12A為圖1之實例中展示的內容創建者系統12之一個實例。
如圖6A中所示,內容創建者系統12A包括預處理器20 (其表示展示於圖2中之空間音訊編碼器件20以及可出現之任何其他預處理)、等效空間格式(equivalent spatial format;ESF)單元404 (其表示混合單元404),及音質音訊編碼器件406 (其在圖6A中展示為eAAC編碼器之多個不同執行個體)。
預處理器20可輸出HOA音訊資料11之經壓縮版本作為位元串流15 (展示為包括擴展傳送聲道315及隨附後設資料317,後設資料可包括與由擴展傳送聲道315表示之主要音訊信號相關聯的空間特性)。就此而言,位元串流15可表示擴展音訊資料,且因此可被稱為「擴展音訊資料15」。預處理器20可將擴展傳送聲道315及後設資料317輸出至音質音訊編碼器件406。
預處理器20亦可輸出與一階及零階球基底函數(其大體由變數W、X、Y及Z表示,且在HOA音訊資料或「一階HOA音訊資料」的上下文中亦被稱作「B格式」)相關聯之HOA係數。預處理器20可將一階HOA音訊資料403輸出至ESF單元404。
ESF單元404可關於一階HOA音訊資料403執行混合以獲得舊式音訊資料25B。舊式音訊資料25B可符合上文所論述之舊式音訊格式中之一或多者。在圖6A的實例中,假定舊式音訊資料25B符合立體聲音訊格式(其包括左(L )聲道及右(R )聲道)。ESF單元404可將舊式音訊資料25B輸出至音質音訊編碼器件406。
當獲得舊式音訊資料25B時,ESF單元404獲得殘餘音訊資料405。亦即,當混合一階HOA音訊資料403以獲得舊式音訊資料25B時,ESF單元404可有效地判定一階HOA音訊資料403與舊式音訊資料25B之間的差異作為殘餘音訊資料405 (且展示於圖6A之實例中作為AB 傳送聲道)。ESF單元404可將殘餘音訊資料405輸出至音質音訊編碼器件406。
音質音訊編碼器件406可關於舊式音訊資料25B之每一部分(例如,訊框)執行音質音訊編碼以獲得音訊資料傳送串流(ADTS)訊框407A。音質音訊編碼器件406亦可關於殘餘音訊資料405之AB 傳送聲道中之每一者執行音質音訊編碼以獲得一或多個ADTS訊框407 (在圖6A的實例中展示為ADTS訊框407B)。音質音訊編碼器件406亦可關於擴展傳送聲道315執行音質音訊編碼以獲得一或多個ADTS訊框(展示為ADTS訊框407C至407M)。
音質音訊編碼器件406亦可獲得後設資料317及標頭319。音質音訊編碼器件406可將標頭319、ADTS訊框407B至407M及後設資料317配置為ADTS訊框407A之一或多個填充元素。填充元素可表示經均勻地設定大小之區塊(其中作為一個實例,每一填充元素為256位元組)。
有關填充元素之更多資訊可見於國際標準化組織(國際標準化組織(Organisation Internationale de Normalisation))之音訊小組的題為「White Paper on AAC Transport Formats」之白皮書(移動圖像及音訊之ISO/IEC JTC1/SC29/WG11寫碼,文件ISO/IEC JTC1/SC29/WG11 N14751,在日本劄幌之會議期間,於2014年7月發佈)中。有關音質音訊編碼器件406可指定如何將標頭319、ADTS訊框407B至407M及後設資料317配置為ADTS訊框407A之一或多個填充元素的更多資訊關於圖7A及7B之實例提供。
圖7A及圖7B為根據本發明中所描述之技術的各種態樣說明圖2之位元串流可如何經配置以實現後向相容性及延展性的圖。首先參考圖7A,位元串流21表示位元串流21之單一部分,諸如單一ADTS傳送訊框,ADTS訊框407A以及填充元素350A至350E (「填充元素350」或fill_elements_1至fill_elements_5 (展示為「5」))在該單一ADTS傳送訊框中經指定,如圖7B中所示。
音質音訊編碼器件406可直接在ADTS傳送訊框407A之後指定填充元素350。音質音訊編碼器件406可直接在ADTS訊框407A (其表示舊式音訊資料25B)之後在填充元素350A中指定標頭319,隨後在填充元素350A至350D中指定ADTS傳送訊框407B至407M中之每一者,且隨後在填充元素350D及350E中指定後設資料317。
音質音訊編碼器件350可根據以下語法指定標頭319: 標頭 ● SyncWord 8位元 ● SizeOfHeaderBytes 4位元 ● NumFillElements 8位元 ● NumSplits 8位元 ● For i=1: NumSplits - SizeofSplitBytes 10位元(多達1024位元組- 200kbps) - TypeofSplit 3位元(ADTS,OBJ後設資料,HOA旁側資訊,CH後設資料,SpAACe組態) ● End ● AlignBits 0-8位元
大體而言,標頭319表示指示如何在後向可相容位元串流21中指定擴展音訊資料(由ADTS傳送訊框407B至407M表示)的一或多個指示。標頭319可包括識別填充元素350包括擴展音訊資料(由擴展傳送聲道315、後設資料317及殘餘音訊資料405表示)之指示(例如,SyncWord語法元素)。
標頭319亦可包括識別標頭319之大小的指示(例如,上文SizeOfHeaderBytes語法元素)。標頭319亦可包括識別多個填充元素350之指示(例如,NumFillElements語法元素)。在圖7B的實例中,音質音訊編碼器件406可為NumFillElements語法元素指定值五(5)。
標頭319亦可包括識別擴展音訊資料之多個部分的指示。在圖7B的實例中,音質音訊編碼器件406可為NumSplits語法元素指定值M+1,此係由於存在M-1個(考慮到存在M-1個ADTS傳送訊框407B至407M)部分加標頭319作為另一部分,且存在後設資料317作為總共M+1個部分(其亦可被稱作「分裂」)之又一部分。在一些實例中,考慮到標頭319並不提供任何與基礎音場有關之資料,其可不包括為該等部分中之一者。
對於多個不同部分中之每一者,音質音訊編碼器件406可在標頭319中指定識別擴展音訊資料之部分中之各別者的大小之指示(例如,SizeofSplitBytes語法元素)及識別部分中之各別者的類型之指示(例如,TypeofSplit語法元素)。該類型可指示對應部分是否為ADTS傳送訊框(ADTS)、物件後設資料、HOA旁側資訊(其可以V向量形式指定空間特性)、聲道後設資料,或下文更詳細地論述之SpAACe組態。
音質音訊編碼器件406可根據所謂的空間音訊進階寫碼增強/擴展(spAACe)音訊串流(spAACe AS)替代地指定ADTS訊框407B至407M及後設資料317。當使用spAACe AS格式時,音質音訊編碼器件406可將標頭319指定為包括以下各者,此係由於上文所論述之標頭319的剩餘態樣鑒於根據spAACe AS格式所指定而發信係冗餘的: ● SyncWord 8位元 ● SizeOfHeaderBytes 4位元 ● NumFillElements 8位元 ● AlignBits 0-8位元
音質音訊編碼器件406可將SpAACe音訊串流位元分割成具有256位元組(作為一個實例)之最大大小的一序列位元組對準資料塊。音質音訊編碼器件406接著可將每一分區作為單獨的fill_element內嵌於AAC位元串流(或其他音質編解碼器位元串流)之raw_data_block內以潛在地維持與舊式AAC格式之後向相容性。
ADTS訊框之概述及語法提供於ISO_IEC_14496-3之標題為「Information technology - Coding of audio-visual objects - Part 3: Audio」且日期為2009年9月1日之附錄1.A (例如,涉及表1.A.4至1.A.11)中,(在下文中被稱作「ISO_IEC 14496-3;2009」)。raw_data_block()之語法在ISO_IEC_14496-3;2009之表4.3中解釋。音質音訊編碼器件406可使用single_channel_element()及channel_pair_element()來攜載舊式路徑中之單聲道及立體聲聲道。語法描述於ISO_IEC_14496-3;2009之表4.4及表4.5中。來自舊式路徑之任何數目個此等元素可用於如表A.8中所描述之SpAACe解碼程序中。
一序列Fill_element用於攜載SpAACe音訊串流。Fill_element語法描述於ISO_IEC_14496-3;2009之表4.11中。新擴展類型經定義以攜載SpAACe資料位元組。
extension_payload()之語法藉由如下添加再一個extension_type而更新。 B.1 - extension_payload()之語法
Figure 108122228-A0304-0003
表B.2 - SpAACe_data()之語法
Figure 108122228-A0304-0004
表B.3 - ISO_IEC_14496-3;2009之表4.121中的額外extension_type定義
Figure 108122228-A0304-0005
音質音訊編碼器件406可在SpAACeDataByte[]中緩衝一個raw_data_block以形成spAACeAudioStream()。
給定有關spAACeAudioStream()之形成的前述內容,下文可描述用以傳送spAACe音訊資料之獨立格式。下文為關於技術之各種態樣所描述及考慮的總結: - 諸如單一聲道元素(SCE)之核心解碼、聲道對元素(CPE)及LFE解碼描述於ISO/IEC 14496-3;2009中; - HOA解碼描述於ETSI TS 103 589,高階立體混響(HOA)傳送格式中; - 動態範圍控制(DRC)描述於ISO/IEC 23003-4,資訊技術--MPEG音訊技術--第4部分:動態範圍控制中;及 - 諸如物件解碼之其他解碼功能描述於ISO/IEC 23003-4,資訊技術--MPEG音訊技術--第4部分:動態範圍控制中(根據低複雜度設定檔限制),及ISO/IEC 23008-3:2018,資訊技術--異構環境中之高效寫碼及媒體遞送--第3部分:3D音訊中。
以下語法表可表示音質音訊編碼器件406可如何在位元串流21中指定spAACeAudioStream()。 表11- spAACeAudioStream()之語法
Figure 108122228-A0304-0006
鑒於spAACeAudioStreamPacket()具有固定或均勻大小,音質音訊編碼器件406可能不指定多個spAACe音訊串流封包存在於位元串流21中,而是實際上只要位元可用(如經由bitsAvailable()函數調用判定)即繼續剖析spAACe音訊串流封包。
音質音訊編碼器件406可如下指定空間音訊串流封包中之每一者。 表A.2- spAACeAudioStreamPacket()之語法
Figure 108122228-A0304-0007
spAACe音訊串流封包中之每一者可包括:對一種類型的spAACe音訊串流封包類型之指示(例如,SPAACEASPacketType語法元素)、spAACe音訊串流封包標記之指示(例如,SPAACEASPacketLabel語法元素)、spAACe音訊串流封包之長度的指示(例如,SPAACEASPacketLength語法元素),及spAACe音訊串流封包之有效負載(例如,spAACEASPacketPayload語法元素)。下表提供正上方之該表的語法元素的語義: 表A.2.1 - spAACeAudioStreamPacket()之語義
Figure 108122228-A0304-0008
以下語法表指定SPAACEASPacketPayload之語法: 表A.3-SPAACEASPacketPayload()之語法
Figure 108122228-A0304-0009
下文提供SPAACEASPacketPayload函數之語義: 表A.3.1 - SPAACEASPacketPayload()之語義
Figure 108122228-A0304-0010
下文提供spAACeConfig函數之語法以及spAACeConfig函數之語義: 表A.4 - spAACeConfig()之語法
Figure 108122228-A0304-0011
表A.4.1 - spAACeConfig ()之語義
Figure 108122228-A0304-0012
SpAACeSignals3d函數之語法如下,且語義接著處於正下方。 表A.5 - SpAACeSignals3d()之語法
Figure 108122228-A0304-0013
表A.5.1 - SpAACeSignals3d()之語義
Figure 108122228-A0304-0014
spAACeDecoderConfig函數之語法提供於下文中。 A.6 - spAACeDecoderConfig() 之語法
Figure 108122228-A0304-0015
前述表提供有關spAACeAudioStreamPacket可如何指示在舊式音訊資料25B或擴展音訊資料中指定spAACeElement之時間的語法。當inLegacyPath語法元素經設定為一時,在舊式音訊資料25B中指定彼聲道之對應元素。當inLegacyPathSyntax元素經設定為零時,在擴展音訊資料中指定彼聲道之對應元素。下文提供spAACeDecoderConfig函數之語義: 表A.6.1 - spAACeDecoderConfig()之語義
Figure 108122228-A0304-0016
下表提供上文表中提及之spAACeExtElementConfig函數的語法,接著為spAACeExtElementConfig函數之語義。 表A.7 - spAACeExtElementConfig()之語法
Figure 108122228-A0304-0017
表A.7.1 - spAACeExtElementConfig()之語義
Figure 108122228-A0304-0018
下表提供上文提及之HOAConfig_SN3D函數的語法,隨後為HOAConfig_SN3D函數之語義: 表A.7.2 - HOAConfig_SN3D()之語法
Figure 108122228-A0304-0019
表A.7.3 - HOAConfig_SN3D()之語義
Figure 108122228-A0304-0020
下文呈現spaceframe函數之語法,隨後為語義。 A.8 - spAACeframe() 之語法
Figure 108122228-A0304-0021
前述表提供有關spAACeAudioStreamPacket可如何指示在舊式音訊資料25B或擴展音訊資料中指定spAACeElement之時間的語法。當inLegacyPath語法元素經設定為一時,在舊式音訊資料25B中指定彼聲道之對應元素。當inLegacyPathSyntax元素經設定為零時,在擴展音訊資料中指定彼聲道之對應元素。下文提供spAACeDecoderConfig函數之語義:
下表呈現spAACeframe函數之語義。 表A.8.1 -spAACeframe() 之語義
Figure 108122228-A0304-0022
以此方式,在將空間格式化擴展音訊資料內嵌於與ADTS訊框407A相關聯的填充元素中之前,音質音訊編碼器件406可處理擴展音訊資料以獲得符合spAACe音訊串流格式之空間格式化擴展音訊資料。利用各種指示之任何組合(其為參考上文所提及之實例語法元素的另一方式),空間格式化擴展音訊資料可符合上文所提及之spAACeAudioStream。音質音訊編碼器件406接著可指定(或換言之,內嵌)空間格式化擴展音訊資料作為與位元串流21中之ADTS訊框407A相關聯的填充元素。
接下來參看圖6B,系統12B表示展示於圖2中之系統12的另一實例。除了音質音訊編碼器件406在音訊傳送串流21A中指定舊式音訊資料25B且在單獨的音訊傳送串流21B中指定擴展音訊資料之外,系統12B可類似於系統12A。第一音訊傳送串流21A及第二音訊傳送串流21B之組合可表示展示於圖2之實例中的位元串流21。
在一些實例中,音質音訊編碼器件406可關於第一音訊傳送串流21A、第二音訊傳送串流21B或第一及第二音訊傳送串流21A及21B兩者執行上文描述的處理以獲得空間格式化音訊傳送串流。利用各種指示之任何組合(其為參考上文所提及之實例語法元素的另一方式),空間格式化音訊傳送串流可符合上文所提及之spAACeAudioStream。
亦即,音質音訊編碼器件406可在後向可相容位元串流21中指定表示第一音訊資料(例如,由ADTS訊框407A表示之舊式音訊資料25B)之第一音訊傳送串流21A。音質音訊編碼器件406亦可在後向可相容位元串流21中指定表示第二音訊資料(例如,擴展音訊資料)之第二音訊傳送串流21B。
當指定兩個或更多個音訊傳送串流時,存在單獨串流彼此獨立到達的可能性,使得一或多個音訊傳送串流可在音訊傳送串流中之另一者之前或稍後到達。當各種音訊傳送串流比其他音訊傳送串流更早或更遲到達時,在使用擴展音訊資料重建構HOA係數11'以增強舊式音訊資料25B時,音訊解碼器件24可使用非同步擴展音訊資料增強舊式音訊資料25B,由此將音訊假影注入至HOA係數11'中。
為了避免前述音訊假影,根據本發明中描述之技術的各種態樣,音質音訊編碼器件406可指定識別關於第一音訊傳送串流及第二音訊傳送串流之同步化資訊的一或多個指示。關於圖8描述識別同步化資訊之一或多個指示的實例。
圖8為更詳細地說明圖6B之音訊傳送串流的圖。在圖8的實例中,音訊傳送串流21A包括ADTS串流傳輸部分(其可被稱為訊框) 21A-1至21A-4。音訊傳送串流21B包括ADTS串流傳輸部分(其可被稱為訊框) 21B-1至21B-4。
ADTS訊框21A-1至21A-4中之每一者包括時戳(TS) 370A至370D中之各別者。ADTS訊框21B-1至21B-4中之每一者同樣地包括時戳(TS) 372A至372D中之各別者。時戳370A至370D中之每一者可表示識別關於第一音訊傳送串流21A之同步化資訊的實例指示。時戳372A至372D中之每一者可表示識別關於第二音訊傳送串流21B之同步化資訊的實例指示。
在一些實例中,時戳370A至370D及372A至372D中之每一者可包括循環地重複之八位元(或某一其他數目的位元)整數。亦即,假設八位元整數值,時戳370A至370D可在時戳370A之值零處開始迭代地增大,隨後為時戳370B 1之值一,隨後為時戳370C之值二,隨後為時戳370D之值三,等等,直至在以零至多達255的值循環地重複之前達至28 -1 (其等於255)為止,諸如此類。音質音訊編碼器件406可為彼等訊框21B-1至21B-4之時戳372A至372D指定相同值,該等相同值指定同時描述音場之音訊資料。
在圖8的實例中,假設音訊傳送串流21B包括時戳372A至372D,該等時戳具有時戳327A之提高值254,隨後為時戳372B之值255,且隨後為時戳372C之值零,隨後為時戳372D之值一。就此而言,訊框21B-3與訊框21A-1同步,此係因為訊框21A-1及21B-3兩者具有指定相同值之時戳370A及372C。來自訊框21B-3之擴展音訊資料接著可用於增強由訊框21A-1指定之舊式音訊資料25B而不注入音訊假影。
同樣地,訊框21B-4與訊框21A-2同步,此係因為訊框21A-2及21B-4兩者具有指定相同值之時戳370B及372D。來自訊框21B-4之擴展音訊資料接著可用於增強由訊框21A-2指定之舊式音訊資料25B而不注入音訊假影。
返回至圖6B之實例,音質音訊編碼器件406可經由提供第一音訊傳送串流21A與第二音訊傳送串流21B之間的粗略對準之傳輸層協定(諸如傳送控制協定-TCP)輸出後向可相容位元串流21。換言之,音質音訊編碼器件406可利用傳輸層協定來維持兩個(或在一些實例中更多個)音訊傳送串流21A與21B之間的粗略級別對準(儘管封包編號)。
音質音訊編碼器件406可利用由傳輸層協定提供之粗略級別控制以便減小時戳370及372的大小。亦即,時戳370及372可每隔256個訊框重複,其允許128個訊框之最大容許粗略對準偏移。在每訊框2048個位元組下之128個訊框,且假設48千赫茲(kHz)之取樣率,提供大約5.4秒的時間同步。因此,在存在確保多達約5.4秒之同步(或換言之,時間對準)之粗略級別對準時,音質音訊編碼器件406可僅使用時戳370及372維持音訊傳送串流21A與21B之間的同步。
為了指定時戳370及372,音質音訊編碼器件406可在ADTS傳送串流訊框21A-1至21A-4及21B-1至21B-4中之每一者的標頭中傳信以下語法元素: ● Extension_type 0011 fill_element(有效負載) ● Extension_type 1111 fill_element(時戳,url) ● Timestamp 8位元 ● url 位元
根據標題為「Information technology - Coding of audio-visual objects - Part 3: Audio」且日期為2009年9月1日之國際標準ISO/IEC 14496-3指定前述語法元素。儘管關於前述國際標準進行描述,但可能根據皆專有或並非專有之其他標準指定類似語法元素。雖然可利用類似語法元素,但各種值可不同以避免衝突、冗餘或其他問題。
前述語法包括Extension_type語法元素表示識別對應於擴展音訊資料之有效負載的指示。Extension_type語法元素表示識別訊框包括時戳之指示。Extension_type的值0011及Extension_type的值1111可如上文國際標準之表4.121處所提及之保留,由此避免衝突及圍繞引入新語法元素之其他問題。
時戳語法元素與時戳370及372相同。均勻資源位置(url)語法元素表示識別在網路內之儲存音訊資料或以其他方式使音訊資料可用於經由網路下載之位置的指示。音質音訊編碼器件406可將位元串流21輸出至音訊編碼器件24,如上文關於圖2之實例更詳細地論述。
返回參考圖2之實例,音訊解碼器件24可獲得位元串流21且關於位元串流21執行音質音訊解碼以獲得位元串流17 (其可再次被稱作位元串流17)。音訊解碼器件24可自位元串流17獲得符合舊式音訊格式之舊式音訊資料25B。音訊解碼器件24隨後可自位元串流17獲得參數403。
如圖2之實例中所示,音訊解碼器件24可包括去混合單元(DU) 26,音訊解碼器件24可調用該去混合單元以基於參數403處理舊式音訊資料25B以獲得環境HOA音訊資料。在一些情況下,去混合單元26可自位元串流21獲得指示如何處理舊式音訊資料25B以獲得環境HOA音訊資料之上文所描述的去混合資料。在一些實例中,去混合單元26可基於參數403處理去混合資料以獲得上文所描述之去混合矩陣。就此而言,去混合資料包括表示將N個輸入信號轉換成M個輸出信號之去混合矩陣的去混合資料,其中N並不等於M。去混合單元26可將去混合矩陣應用於舊式音訊資料25B以獲得環境HOA音訊資料。
為了獲得擴展音訊資料,音訊解碼器件24可調用一或多個音質音訊解碼器件,該一或多個音質音訊解碼器件可關於後向可相容位元串流21以與兩種方式(例如,內嵌於填充元素中或作為單獨的音訊傳送串流)中之任一者對等的方式執行音質解碼,擴展音訊資料可藉由該兩種方式由音質音訊編碼器件406在位元串流21中指定。
亦即,音質音訊解碼器件可自根據AAC傳送格式或AptX傳送格式指定之一或多個填充元素獲得增強式音訊資料。在填充元素的上下文中,音質音訊解碼器件可獲得ADTS傳送訊框407A且解壓縮ADTS傳送訊框407A以獲得舊式音訊資料25B。
音質音訊解碼器件隨後可剖析來自填充元素之標頭319。為識別填充元素,音質音訊解碼器件可剖析形成標頭319之SyncWord語法元素且基於SyncWord語法元素判定填充元素350指定擴展音訊資料。
在判定填充元素350指定擴展音訊資料之後,音質音訊資料可剖析NumFillElements語法元素、NumSplits語法元素,且對於多個分裂中之每一者,剖析SizeofSplitBytes及TypeofSplit語法元素中之各別者。基於前述語法元素,音質音訊解碼器件可獲得ADTS訊框407B至407M及後設資料317,且關於ADTS訊框407B至407M及後設資料317執行音質音訊解碼以解壓縮ADTS訊框407B至407M及後設資料317。
在擴展音訊資料經由單獨傳送串流21B指定時,音質音訊解碼器件可藉由剖析指示擴展音訊資料係經由所識別的單獨傳送串流指定之指示識別擴展音訊資料係經由單獨傳送串流21B指定。音質音訊解碼器件接著可獲得第二音訊傳送串流21B。在單獨串流之此上下文中,音訊解碼器件24可經由提供第一音訊傳送串流21A與第二音訊傳送串流21B之間的上文所提及之粗略對準的傳輸層協定接收音訊傳送串流21A及21B。
音質音訊解碼器件隨後可自後向可相容位元串流21獲得表示第一音訊傳送串流21A及第二音訊傳送串流21B之同步化資訊(例如,時戳370及372)的一或多個指示。音質音訊解碼器件隨後可基於一或多個時戳370及372同步化第一音訊傳送串流21A及第二音訊傳送串流21B。
為了說明,再次考慮圖8之實例,其中音質音訊解碼器件可將時戳370A與時戳372A至372D中之每一者進行比較,在時戳370A指定與時戳370C相同之值時停止。音質音訊解碼器件接著可使ADTS串流訊框21A-1與ADTS串流訊框21B-3同步。音質音訊解碼器件可基於時戳370及372以此方式繼續使音訊傳送串流21A之訊框21A-1至21A-4與音訊傳送串流21B之訊框21B-1至21B-4同步。
就此而言,音訊解碼器件24亦可自位元串流17獲得高階立體混響音訊資料之第二部分。音訊解碼器件24可基於環境HOA音訊資料及高階立體混響音訊資料之第二部分獲得HOA音訊資料11'。
音訊播放系統16接著可將音訊顯現器22中之一或多者應用於HOA音訊資料11'以獲得一或多個揚聲器饋入25A。音訊播放系統16隨後可將一或多個揚聲器饋入25A輸出至一或多個揚聲器3。關於圖5A至圖5D描述有關可如何進行舊式及增強式處理的更多資訊。
以此方式,技術可使得能夠產生內嵌增強式音訊傳送的後向可相容位元串流21,該後向可相容位元串流可允許由增強式音訊傳送(相對於符合舊式音訊格式之舊式音訊傳送,該等舊式音訊格式諸如單聲道音訊格式、立體聲音訊格式及可能甚至一些環繞聲格式,包含5.1環繞聲格式作為一個實例)表示的音場的更高解析度再生。經組態以使用舊式音訊格式中之一或多者再生音場的舊式音訊播放系統可處理後向可相容位元串流,由此維持後向相容性。
經組態以使用增強式音訊格式(諸如一些環繞聲格式,作為一個實例,包括7.1環繞聲格式或7.1環繞聲格式加一或多個基於高度的音訊源--7.1+4H)再生音場之增強式音訊播放系統可利用增強式音訊傳送以增強(或換言之)擴展舊式音訊傳送,從而支援音場之增強再生。因此,技術可使得後向可相容音訊位元串流支援舊式音訊格式及增強式音訊格式兩者。
技術的其他態樣可實現增強式音訊傳送與舊式音訊傳送之間的同步以確保音場的恰當再生。時間同步技術之各種態樣可使得增強式音訊播放系統能夠識別對應於增強式音訊傳送之部分的舊式音訊傳送之音訊部分。增強式音訊播放系統接著可基於增強式音訊傳送之對應部分以並不注入音訊假影或另外引起音訊假影的方式增強或另外擴展舊式音訊傳送之部分。
就此而言,技術可促進使得舊式音訊播放系統能夠保持使用之後向相容性,同時亦促進可相對於經由舊式音訊格式達成之音場再生改良音場再生之解析度的增強式音訊格式的採用。促進增強式音訊格式的採用可引起更逼真的音訊體驗而不使舊式音訊系統過時。技術可因此維持舊式音訊播放系統再生音場之能力,由此改良或至少維持舊式音訊播放系統,同時亦經由使用增強式音訊播放系統實現音場再生的演進。因此,該等技術改良舊式音訊播放系統及增強式音訊播放系統兩者自身之操作。
圖3A至圖3D為更詳細地說明圖2之系統10之各種態樣的方塊圖。如圖3A之實例中所示,空間音訊編碼器件20 (其亦可如圖3A中所示被稱作HOA傳送格式--HTF--器件20)可首先獲得HOA音訊資料11 (如圖3A中所示其亦可被稱作HOA輸入11)。HTF器件20可將每樣本(N +1)2 個HOA係數(其中N 斜體的以與上文所列之N區分開,且指代與HOA輸入11之HOA係數相關聯的球基底函數之最高階數)壓縮成M (其中M 斜體的以與上文所列之M區分開)個傳送聲道30。
M個傳送聲道30中之每一傳送聲道可指定環境HOA音訊資料之單一HOA係數或主要音訊信號(例如,藉由使如MPEG-H 3D音訊寫碼標準中所列之U向量與S向量相乘形成的音訊物件)。HTF器件20可根據技術說明書(TS)之各種態樣制定位元串流15,該技術說明書之標題為「Higher Order Ambisonics (HOA) Transport Format」,日期為2018年6月,且歐洲電信標準研究所(European Telecommunication Standards Institute;ETSI)公佈為ETSI TS 103 589 v1.1.1。有關HOA傳送格式之更多資訊可在下文關於圖9至圖10C獲得。
在任何情況下,HTF器件20可將M 個傳送聲道30輸出至混合單元404,該混合單元可應用上文所論述之參數403以獲得舊式音訊資料25B (其藉助於圖3A中之實例展示為「立體聲混合」)。混合單元404可將舊式音訊資料25B作為兩個聲道(在舊式立體聲音訊資料的實例中)輸出至音質音訊編碼器件406作為位元串流17之部分。混合單元404可進一步將位元串流15中剩餘之HOA音訊資料的第二部分輸出為M- 2個傳送聲道,由此形成位元串流17。混合單元404亦可將參數403及/或去混合矩陣407指定為藉由音質音訊編碼器件406以上文更詳細地描述之方式制定的位元串流21中的後設資料403/407。
作為一個實例,音質音訊(PA)編碼器件406可關於位元串流17之傳送聲道中之每一者應用增強進階音訊寫碼(eAAC)以獲得位元串流21。eAAC可指代任何數目個不同類型的AAC,諸如高效AAC (HE-AAC)、HE-AACv2 (其亦被稱作aacPlus v2或eAAC+),及其類似者。
雖然關於eAAC及/或AAC進行描述,但以上技術可使用任何類型的音質音訊寫碼執行,如下文更詳細地描述,該音質音訊寫碼允許擴展封包(諸如下文論述之填充元素)或以其他方式允許後向相容性。其他音質音訊編解碼器之實例包括音訊編解碼器3 (AC-3)、蘋果的無損音訊編解碼器(Apple Lossless Audio Codec;ALAC)、MPEG-4音訊無損串流傳輸(ALS)、aptX®、增強AC-3、自由無損音訊編解碼器(FLAC)、猴子的音訊(Monkey's Audio)、MPEG-1音訊層II (MP2)、MPEG-1音訊層III (MP3)、Opus及視窗媒體音訊(Windows Media Audio;WMA)。
如圖3B之實例中所示,HTF編碼器20 (其為HTF器件20之另一名稱)可處理HOA輸入11以獲得在傳送聲道30A中指定之四個環境HOA係數(展示為W、X、Y及Z),及在傳送聲道30B中指定之前景(FG,諸如主要音訊信號)分量及背景(BG,諸如額外環境HOA係數)分量。混合單元404 (其在此實例中為立體聲混合單元)可混合四個環境HOA係數以獲得左及右立體聲聲道25B。混合單元404亦可輸出由混合四個環境HOA係數產生之殘餘音訊資料409以形成兩個立體聲舊式音訊聲道25B。
音質音訊(PA)編碼器件406A及406B可關於舊式音訊資料25B及殘餘音訊資料409及傳送聲道30B執行音質音訊編碼以按上文更詳細地描述之方式獲得位元串流21。音質音訊編碼器件406A及406B可將位元串流21輸出至音訊播放系統16。
音訊播放系統16可調用音質音訊解碼器件490A及490B以處理位元串流21以按上文更詳細地描述之方式獲得舊式音訊資料25B' (其中撇號貫穿本發明表示上文所論述之微小變化)、殘餘音訊資料409'及傳送聲道30B'。當音訊播放系統16已經組態以使用舊式音訊資料25B'再生音場時,音訊播放系統16可將舊式音訊資料25B'輸出至兩個立體聲揚聲器3 (展示為「舊式路徑」)。
當音訊播放系統16已經組態以使用傳送聲道30B中所闡述的增強式音訊資料再生音場時,音訊播放系統16可調用HTF解碼器492 (其可表示以與HTF編碼器20對等之方式操作的單元組態)以解壓縮傳送聲道30B',從而獲得HOA音訊資料11'之第二部分。音訊播放器件16亦可調用去混合單元26以基於參數403及去混合資料407 (其由變數T-1 表示,而混合矩陣由變數T表示)中之一或多者處理舊式音訊資料25B'以獲得四個環境HOA係數30A'。去混合單元26可將四個環境HOA係數30A'輸出至HTF解碼器492。
HTF解碼器492可基於四個環境HOA係數30A'及傳送聲道30B'獲得HOA音訊資料11'。HTF解碼器492可將HOA音訊資料11'輸出至音訊顯現器22中之一或多者以獲得包括多個不同揚聲器饋入25A之增強式音訊資料,該多個不同揚聲器饋入隨後輸出至揚聲器3 (其假定為以7.1格式配置,其中四個額外揚聲器為音場之再生添加高度--4H)。
圖3C說明其中傳送聲道30C僅包括一個聲道(「W」聲道)之實例。因此,傳送聲道30C'之音訊資料並未在擴展路徑中反混合或去混合。舉例而言,傳送聲道30C及30C'攜載符合單聲道舊式音訊格式之音訊資料。在圖3C的實例中,傳送聲道30C及30C'描述為攜帶舊式單聲道音訊資料。在各種使用案例情境中,圖3C之舊式路徑亦可顯現且輸出單聲道音訊資料。
圖3D說明其中傳送聲道30C包括四個聲道(即,定義於集合{W, X, Y, Z}中之聲道)的實例。圖3D之實例提供音訊資料之後向可相容編碼、解碼及播放,該音訊資料包括HOA域中之物件以及「W」、「X」「Y」及「Z」聲道,或擴展空間格式(ESF」)。圖3D之實例中的舊式路徑混合平移至立體聲方向之兩個聲道及/或在任何舊式ESF音訊資料之編碼或預編碼級處平移至其他方向的兩個聲道,以產生混合的左右信號(展示為L及R信號之混合)。舊式路徑之PA解碼器490A將經解碼ESV信號(展示為L^及R^)提供至定位於擴展路徑中的反相混合單元27。 反相混合單元27可使用矩陣乘法來獲得舊式ESF音訊資料之ESF聲道(在此特定實例中總共四個聲道) 30D'。
另外,擴展路徑之HTF解碼器492可補充藉由解碼傳送聲道30B'之HOA域音訊資料獲得的3D音訊資料,該等傳送聲道具有自反相混合單元27獲得之舊式ESF {W^, X^, Y^, Z^}聲道30D'。HOA顯現器22可輸出自HOA係數11'之經解碼HOA域音訊資料獲得的3D音訊資料及舊式立體聲格式ESF{W^, X^, Y^, Z^}聲道30D'之音訊資料的組合。在舊式音訊系統併入於所說明系統中之情況下,PA解碼器490A亦可顯現及輸出舊式ESF音訊資料,如圖3D中所示。
圖4為說明經組態以執行本發明中所描述之技術的各種態樣的圖3A至圖3D之實例中示出的音質音訊編碼器的實例的方塊圖。音訊編碼器1000A可表示AptX編碼器之一個實例,其可經組態以編碼音訊資料以供經由個人區域網路或「PAN」(例如,Bluetooth®)傳輸。然而,藉由音訊編碼器1000A執行之本發明之技術可在期望音訊資料之壓縮的任何上下文中使用。在一些實例中,音訊編碼器1000A可經組態以作為aptX™音訊編解碼器編碼音訊資料17,該音訊資料包括例如,增強式aptX-E-aptX、實時aptX及aptX高清晰度。
在圖4的實例中,音訊編碼器1000A可經組態以使用增益形狀向量量化編碼程序編碼音訊資料17,該增益形狀向量量化編碼程序包括使用緊密映射寫碼殘餘向量。在增益形狀向量量化編碼程序中,音訊編碼器1000A經組態以編碼頻域音訊資料之子頻帶的增益(例如,能量位準)及形狀(例如,由變換係數定義之殘餘向量)兩者。頻域音訊資料之每一子頻帶表示音訊資料17之特定訊框的特定頻率範圍。
可以特定採樣頻率對音訊資料17進行採樣。儘管實例採樣頻率可包括48 kHz或44.1 kHZ,但可使用任何期望採樣頻率。音訊資料17之每一數位樣本可由特定輸入位元深度定義,例如,16位元或24位元。在一個實例中,音訊編碼器1000A可經組態在音訊資料21之單一聲道(例如,單聲道音訊)上操作。在另一實例中,音訊編碼器1000A可經組態以獨立地編碼音訊資料17之兩個或更多個聲道。舉例而言,音訊資料17可包括用於立體聲音訊之左聲道及右聲道。在此實例中,音訊編碼器1000A可經組態以在雙單聲道模式中獨立地編碼左及右音訊聲道。在其他實例中,音訊編碼器1000A可經組態以將音訊資料17之兩個或更多個聲道編碼在一起(例如,在聯合立體聲模式中)。舉例而言,音訊編碼器1000A可藉由用音訊資料17之另一聲道預測音訊資料17之一個聲道來執行某些壓縮操作。
不管音訊資料17之聲道如何配置,音訊編碼器1000A獲得音訊資料17且將彼音訊資料17發送至變換單元1100。變換單元1100經組態以將音訊資料17之訊框自時域變換至頻域以產生頻域音訊資料1112。音訊資料17之訊框可由音訊資料之預定數目個樣本表示。在一個實例中,音訊資料17之訊框可為1024個樣本寬。可基於正使用的頻率變換及所期望的壓縮量選擇不同訊框寬度。頻域音訊資料1112可表示為變換係數,其中每一該等變換係數之值表示頻域音訊資料1112在特定頻率下之能量。
在一個實例中,變換單元1100可經組態以使用修改型離散餘弦變換(modified discrete cosine transform;MDCT)將音訊資料17變換成頻域音訊資料1112。MDCT為基於IV型離散餘弦變換之「重疊」變換。MDCT被視為「重疊」,此係由於其對來自多個訊框之資料起作用。亦即,為了使用MDCT執行變換,變換單元1100可包括與音訊資料之後續訊框50%重疊的視窗。MDCT之重疊性質可能適用於資料壓縮技術,諸如音訊編碼,此係由於其可減小訊框邊界處的來自寫碼之假影。變換單元1100不必限於使用MDCT而是可將其他頻域變換技術用於將音訊資料17轉換成頻域音訊資料1112。
子頻帶濾波器1102將頻域音訊資料1112分離成子頻帶1114。子頻帶1114中之每一者包括在特定頻率範圍中之頻域音訊資料1112的變換係數。舉例而言,子頻帶濾波器1102可將頻域音訊資料1112分離成二十個不同的子頻帶。在一些實例中,子頻帶濾波器1102可經組態以將頻域音訊資料1112分離成均勻頻率範圍的子頻帶1114。在其他實例中,子頻帶濾波器1102可經組態以將頻域音訊資料1112分離成不均勻頻率範圍之子頻帶1114。
舉例而言,子頻帶濾波器1102可經組態以根據巴克(Bark)尺度將頻域音訊資料1112分離成子頻帶1114。大體而言,巴克尺度之子頻帶具有在感知上等於距離之頻率範圍。亦即,巴克尺度之子頻帶就頻率範圍而言並不相等,而實際上,就人類聽覺感受而言相等。大體而言,處於較低頻率之子頻帶將具有較少變換係數,此係由於較低頻率更易於由人類聽覺系統感知。因此,與較高頻率子頻帶相比較,子頻帶1114之較低頻率子頻帶中之頻域音訊資料1112藉由音訊編碼器1000A更少地壓縮。同樣地,子頻帶1114之較高頻率子頻帶可包括更多變換係數,此係由於較高頻率更難由人類聽覺系統感知。因此,與較低頻率子頻帶相比較,子頻帶1114之較高頻率子頻帶中之資料的頻域音訊1112可藉由音訊編碼器1000A更多地壓縮。
音訊編碼器1000A可經組態以使用子頻帶處理單元1128處理子頻帶1114中之每一者。亦即,子頻帶處理單元1128可經組態以分開地處理子頻帶中之每一者。子頻帶處理單元1128可經組態以根據本發明之技術利用擴展範圍之粗略-精細量化執行增益形狀向量量化程序。
增益形狀分析單元1104可接收子頻帶1114作為輸入。對於子頻帶1114中之每一者,增益形狀分析單元1104可判定子頻帶1114中之每一者的能量位準1116。亦即,子頻帶1114中之每一者具有相關聯能量位準1116。能量位準1116為表示子頻帶1114中之一特定者的變換係數中之能量(亦稱為增益)之總量的分貝(dB)單位之純量值。增益形狀分析單元1104可自子頻帶之變換係數分離子頻帶1114中之一者的能量位準1116以產生殘餘向量1118。殘餘向量1118表示子頻帶之所謂的「形狀」。子頻帶之形狀亦可被稱作子頻帶之頻譜。
向量量化器1108可經組態以量化殘餘向量1118。在一個實例中,向量量化器1108可使用量化程序量化殘餘向量以產生殘餘ID 1124。向量量化器1108可經組態以量化包含於殘餘向量1118 (例如,形狀向量)中之樣本的區塊,而非分開地量化每一樣本(例如,純量量化)。然而,可使用任何向量量化技術方法以及本發明之擴展範圍之粗略-精細能量量化技術。
在一些實例中,音訊編碼器1000A可動態地分配位元以用於寫碼能量位準1116及殘餘向量1118。亦即,對於子頻帶1114中之每一者,音訊編碼器1000A可判定經分配用於能量量化之位元的數目(例如,藉由能量量化器1106)及經分配用於向量量化之位元的數目(例如,藉由向量量化器1108)。經分配用於能量量化之位元總數可被稱為能量指配位元。此等能量指配位元接著可在粗略量化程序與精細量化程序之間經分配。
能量量化器1106可接收子頻帶1114之能量位準1116且將子頻帶1114之能量位準1116量化成粗略能量1120及精細能量1122 (其可表示一或多個經量化精細殘餘)。本發明將針對一個子頻帶描述量化程序,但應理解,能量量化器1106可對子頻帶1114中之一或多者執行能量量化,包括子頻帶1114中之每一者。
大體而言,能量量化器1106可執行遞歸兩步量化程序。能量量化器1106可針對粗略量化程序首先利用第一數目個位元量化能量位準1116以產生粗略能量1120。能量量化器1106可使用用於量化之預定範圍之能量位準(例如,由最大及最小能量位準定義之範圍)產生粗略能量。粗略能量1120接近能量位準1116之值。
能量量化器1106接著可判定粗略能量1120與能量位準1116之間的差值。此差值有時稱為量化誤差。能量量化器1106接著可在精細量化程序中使用第二數目個位元來量化該量化誤差以產生精細能量1122。藉由能量指配位元之總數目減去用於粗略量化程序之位元的數目來判定用於精細量化位元之位元的數目。當一起相加時,粗略能量1120及精細能量1122表示能量位準1116之總經量化值。能量量化器1106可以此方式繼續產生一或多個精細能量1122。
音訊編碼器1000A可進一步經組態以使用位元串流編碼器1110編碼粗略能量1120、精細能量1122及殘餘ID 1124,以創建經編碼音訊資料21 (其為指代位元串流21之另一方式)。位元串流編碼器1110可經組態以使用一或多個熵編碼程序進一步壓縮粗略能量1120、精細能量1122及殘餘ID 1124。熵編碼程序可包括霍夫曼(Huffman)寫碼、算術寫碼、上下文自適應性二進位算術寫碼(CABAC)及其他類似編碼技術。
在本發明之一個實例中,藉由能量量化器1106執行之量化為均勻量化。亦即,每一量化之步驟大小(亦稱為「解析度」)係相等的。在一些實例中,步驟大小可為分貝(dB)單位。可自用於量化之能量值的預定範圍及經分配用於量化之位元數目分別判定用於粗略量化及精細量化之步驟大小。在一個實例中,能量量化器1106針對粗略量化(例如,以產生粗略能量1120)及精細量化(例如,以產生精細能量1122)兩者執行均勻量化。
執行兩步、均勻量化程序等效於執行單一均勻量化程序。然而,藉由將均勻量化分成兩個部分,分配至粗略量化及精細量化之位元可獨立地受控制。此可允許在能量及向量量化中分配位元之更大靈活性,且可改良壓縮效率。考慮M位準均勻量化器,其中M定義能量位準可劃分成的位準的數目(例如,以dB為單位)。M可由經分配用於量化之位元的數目判定。舉例而言,能量量化器1106可將M1位準用於粗略量化且將M2位準用於精細量化。此等效於使用M1*M2位準之單一均勻量化器。
圖5為更詳細地說明圖3A至圖3D之音質音訊解碼器之實施的方塊圖。音訊解碼器1002A可表示AptX解碼器之一個實例,其可經組態以解碼經由PAN (例如,Bluetooth®)接收到之音訊資料。然而,藉由音訊解碼器1002A執行之本發明之技術可在期望音訊資料之壓縮的任何上下文中使用。在一些實例中,音訊解碼器1002A可經組態以作為aptX™音訊編解碼器解碼音訊資料21,該音訊資料包括例如,增強式aptX-E-aptX、實時aptX及aptX高清晰度。然而,本發明之技術可在經組態以執行音訊資料之量化的任何音訊編解碼器中使用。根據本發明之技術,音訊解碼器1002A可經組態以使用緊密映射執行量化程序之各種態樣。
大體而言,音訊解碼器1002A可相對於音訊編碼器1000A以對等之方式操作。因此,在音訊解碼器1002A中可使用在編碼器中用於品質/位元率可縮放協作PVQ之相同程序。解碼係基於相同原則,其中在解碼器中進行操作的反向操作,使得音訊資料可自從編碼器接收到的經編碼位元串流重建構。每一量化器具有相關聯反量化器對應物。舉例而言,如圖5中所示,反變換單元1100'、反子頻帶濾波器1102'、增益形狀合成單元1104'、能量反量化器1106'、向量反量化器1108'及位元串流解碼器1110'可分別經組態以相對於圖4之變換單元1100、子頻帶濾波器1102、增益形狀分析單元1104、能量量化器1106、向量量化器1108及位元串流編碼器1110執行反向操作。
特定言之,增益形狀合成單元1104'重建構頻域音訊資料,該頻域音訊資料具有經重建構殘餘向量以及經重建構能量位準。反子頻帶濾波器1102'及反變換單元1100'輸出經重建構音訊資料17'。在編碼無損之實例中,經重建構音訊資料17'可完全匹配音訊資料17。在編碼有損之實例中,經重建構音訊資料17'可能並不完全匹配音訊資料17。
以此方式,音訊解碼器1002A表示一器件,其經組態以接收經編碼音訊位元串流(例如,經編碼音訊資料21);自經編碼音訊位元串流解碼用於音訊資料之複數個子頻帶中之每一者的唯一識別符(例如,位元串流解碼器1110'輸出殘餘ID 1124);使用緊密映射執行反角錐形向量量化(pyramid vector quantization;PVQ)以基於用於音訊資料之複數個子頻帶中之各別子頻帶的唯一識別符重建構用於音訊資料之複數個子頻帶中之每一子頻帶的殘餘向量(例如,向量反量化器1108'執行反量化);及基於用於每一子頻帶之殘餘向量及能量純量重建構音訊資料之複數個子頻帶(例如,增益形狀合成單元1104'重建構子頻帶1114')。
以此方式,圖3A至圖3D說明音訊播放系統之各種實例,該等音訊播放系統經組態以結合自HOA域音訊資料獲得之3D音訊資料呈現舊式格式(例如,單聲道、立體聲或ESF音訊信號),從而實現舊式音訊播放系統之更佳(就使用者感受而言)音訊播放。以此方式,圖3A至圖3D之系統可改良音訊播放系統自身之操作。應瞭解,圖3A至圖3D中所說明之系統中之每一者可表示分佈式系統,其中舊式及/或擴展路徑之編碼部分與舊式及/或擴展路徑之解碼及顯現分量實體地分離,但與其通信。
圖9為說明在執行本發明中描述之技術的各種態樣時圖2至圖4之空間音訊編碼器件之各種態樣的圖。在圖9的實例中,麥克風5捕獲表示HOA音訊資料之音訊信號,空間音訊編碼器器件20將音訊信號減少至多個不同聲音分量750A至750N (「聲音分量750」)及對應空間分量752A至752N (「空間分量752」),其中空間分量可大體指代對應於主要聲音分量之空間分量及對應改變用途(repurposed)之聲音分量兩者。
如表754中所示,統一資料物件格式,其在位元串流的情況下可被稱為「基於V向量之HOA傳送格式」(VHTF)或「基於向量之HOA傳送格式」,可包括音訊物件(其再次為指代聲音分量之另一方式)及對應空間分量(其可被稱為「向量」)。音訊物件(在圖9的實例中展示為「音訊」)可由變數Ai 表示,其中i 表示第i 音訊物件。向量(在圖9的實例中展示為「V向量」)由變數Vi 表示,其中i 表示第i 向量。Ai 為L×1行矩陣(其中L為訊框中之樣本的數目),且Vi 為M×1行矩陣(其中M為向量中之元素的數目)。
經重建構HOA係數11'可表示為
Figure 02_image046
。經重建構HOA係數11'可根據以下方程式判定:
Figure 02_image048
根據以上方程式,N 表示複數個空間分量之所選非零子集中之聲音分量的總數目。經重建構HOA係數11' (
Figure 02_image046
)可判定為音訊物件
Figure 02_image050
乘向量之轉置
Figure 02_image052
的每一迭代(以零開始,多達N- 1)乘法的總和。空間音訊編碼器件20可如圖9之底部所示指定位元串流15,其中音訊物件750以及每一訊框(由T = 1表示第一訊框,T = 2表示第二訊框,等等)中之對應空間分量752經指定。
圖10A至圖10C為根據本發明中所描述之統一資料物件格式技術的各種態樣說明位元串流內之不同表示的圖。在圖10A的實例中,HOA係數11展示為「輸入」,展示於圖2之實例中的空間音訊編碼器件20可如上文所描述將該等HOA係數變換為VHTF表示800。圖10A的實例中之VHTF表示800表示主要聲音(或前景--FG--聲音)表示。進一步展示表754以更詳細地說明VHTF表示800。在圖10A的實例中,亦存在不同V向量之空間表示802以說明空間分量如何定義對應空間分量之形狀、寬度及方向。
在圖10B的實例中,HOA係數11展示為「輸入」,展示於圖2之實例中的空間音訊編碼器件20可如上文所描述將該等HOA係數變換為VHTF表示806。圖圖8B的實例中之VHTF表示806表示環境聲音(或背景--BG--聲音)表示。進一步展示表754以更詳細地說明VHTF表示806,其中VHTF表示800及VHTF表示806兩者具有相同格式。在圖10B的實例中,亦存在不同的改變用途之V向量的實例808,以說明改變用途之V向量在每一其他元素設定成值零的情況下可如何包括具有值一之單一元素,以便如上文所描述識別環境HOA係數所對應之球基底函數的階數及子階數。
在圖10C的實例中,HOA係數11展示為「輸入」,展示於圖2之實例中的空間音訊編碼器件20可如上文所描述將該等HOA係數變換為VHTF表示810。圖8C的實例中之VHTF表示810表示聲音分量,而且亦包括優先級資訊812 (展示為「PriorityOfTC」,其指代傳送聲道之優先級)。表754在圖10C中更新以進一步更詳細地說明VHTF表示810,其中VHTF表示800及VHTF表示806兩者具有相同格式且VHTF表示810包括優先級資訊812。
在各情況下,空間音訊編碼器件20可藉由將下表中之HoaTransportType語法元素設定為3來指定統一傳送類型(或換言之,VHTF)。
Figure 108122228-A0304-0023
如下表中所提及,HoaTransportType指示HOA傳送模式,且當設定成三(3)個信號的值時,傳送類型為VHTF。
Figure 108122228-A0304-0024
考慮VHTF (HoaTransportType=3),圖9及圖10A至圖10C可說明VHTF如何由音訊信號
Figure 02_image054
及相關聯V向量
Figure 02_image056
構成,其中輸入HOA信號H 可藉由以下估計:
Figure 02_image058
其中第i V向量
Figure 02_image060
為第i 音訊信號及
Figure 02_image062
之空間表示。N 傳送聲道的數目。每一
Figure 02_image060
的動態範圍由[-1, 1]限定。基於V向量之空間表示802之實例展示於圖10A中。 VHTF亦可表示原始輸入HOA,在以下條件中,此意謂
Figure 02_image064
: ● 若
Figure 02_image060
具有全零元素但在第i 元素處為一
Figure 02_image066
● 及若
Figure 02_image062
為第i HOA係數。 因此,VHTF可表示主要音場及環境音場兩者。 如下表中所示,HOAFrame_VvecTransportFormat()固持解碼HOA訊框之L 個樣本(表1中之HoaFrameLength)所需的資訊。 HOAFrame_VvecTransportFormat()之語法
Figure 108122228-A0304-0025
Figure 108122228-A0304-0026
在前述語法表中,Vvector[i][j]指代空間分量,其中i識別傳送聲道,且j識別係數(在Vvector表示改變用途之空間分量時的情況下藉助於環境HOA係數所對應之球基底函數的階數及子階數)。
音訊解碼器件24 (展示於圖2之實例中)可接收位元串流21且自位元串流21獲得HoaTransportType語法元素。基於HoaTransportType語法元素,音訊解碼器件24可擷取各種聲音分量及對應空間分量以按上文更詳細地描述之方式顯現揚聲器饋入。
圖11為說明經組態以執行本發明中所描述之技術的各種態樣之不同系統的方塊圖。在圖11的實例中,系統900包括麥克風陣列902及計算器件904及906。若並不實質上類似,則麥克風陣列902可類似於上文關於圖2之實例所描述的麥克風陣列5。麥克風陣列902包括上文更詳細地論述之HOA轉碼器400及夾層編碼器20。
計算器件904及906可各自表示以下中之一或多者:蜂巢式電話(其可互換地被稱作「行動電話」或「行動蜂巢式手持機」,且其中此類蜂巢式電話可包括所謂的「智慧型電話」)、平板電腦、膝上型電腦、個人數位助理、可穿戴計算頭戴式耳機、手錶(包括所謂的「智慧型手錶」)、遊戲控制台、攜帶型遊戲控制台、桌上型電腦、工作站、伺服器,或任何其他類型的計算器件。出於說明的目的,計算器件904及906中之每一者指代各別行動電話904及906。在任何情況下,行動電話904可包括發射編碼器406,而行動電話906可包括音訊解碼器件24。
麥克風陣列902可捕捉呈麥克風信號908形式的音訊資料。麥克風陣列902之HOA轉碼器400可將麥克風信號908轉碼成HOA係數11,夾層編碼器20 (展示為「夾層編碼器(mezz編碼器) 20」)可編碼(或換言之,壓縮)該等HOA係數從而以上文所描述之方式形成位元串流15。麥克風陣列902可耦接(無線地或經由有線連接)至行動電話904,使得麥克風陣列902可經由傳輸器及/或接收器(其亦可被稱作收發器,且縮寫為「TX」) 910A將位元串流15傳達至行動電話904之發射編碼器406。麥克風陣列902可包括收發器910A,該收發器可表示經組態以將資料傳輸至另一收發器的硬體或硬體及軟體之組合(諸如韌體)。
發射編碼器406可以上文所描述之方式操作以自位元串流15產生符合3D音訊寫碼標準之位元串流21。發射編碼器406可包括或以可操作方式耦接至經組態以接收位元串流15之收發器910B (若並不實質上類似,則其類似於收發器910A)。發射編碼器406在自接收到之位元串流15產生位元串流21時可選擇目標位元率、hoaIndependencyFlag語法元素及多個傳送聲道(根據優先級資訊選擇多個傳送聲道作為傳送聲道之子集)。發射編碼器406可經由收發器910B將位元串流21傳達(儘管未必直接,意謂此類傳達可具有諸如伺服器之插入器件,或藉助於專用非暫時性儲存媒體等)至行動電話906。
行動電話906可包括經組態以接收位元串流21之收發器910C (若並不實質上類似,則其類似於收發器910A及910B),之後行動電話906可調用音訊解碼器件24以解碼位元串流21以便恢復HOA係數11'。儘管圖10中為了易於說明之目的並未展示,但行動電話906可將HOA係數11'顯現成揚聲器饋入,且基於揚聲器饋入經由揚聲器(例如,整合至行動電話906中之擴音器、無線耦接至行動電話906之擴音器、藉由電線耦接至行動電話906之擴音器,或無線地或經由有線連接耦接至行動電話906之頭戴式耳機揚聲器)再生音場。為了藉助於頭戴式耳機揚聲器(其再次可為獨立頭戴式耳機或整合至耳機中之頭戴式耳機)再生音場,行動電話906可自擴音器饋入或直接自HOA係數11'顯現雙耳音訊揚聲器饋入。
圖12為說明在執行本發明中所描述之技術的各種態樣時圖2之音質音訊編碼器件之實例操作的流程圖。音質音訊編碼器件406可在後向可相容位元串流21中指定表示第一音訊資料(例如,由ADTS訊框407A表示之舊式音訊資料25B)之第一音訊傳送串流21A (1200)。音質音訊編碼器件406亦可在後向可相容位元串流21中指定表示第二音訊資料(例如,擴展音訊資料)之第二音訊傳送串流21B (1202)。
音質音訊編碼器件406亦可根據本發明中所描述之技術的各種態樣指定識別關於第一音訊傳送串流及第二音訊傳送串流之同步化資訊的一或多個指示(1204)。音質音訊編碼器件406可將位元串流21輸出至音訊解碼器件24,如上文關於圖2之實例更詳細地論述(1206)。
圖13為說明在執行根據本發明中所描述之技術的各種態樣時圖2之音訊解碼器件的實例操作之流程圖。音訊解碼器件24可自後向可相容位元串流21獲得第一音訊傳送串流及第二音訊傳送串流(1300、1302)。音訊解碼器件24隨後可自後向可相容位元串流21獲得表示用於第一音訊傳送串流21A及第二音訊傳送串流21B之同步化資訊(例如,時戳370及372)的一或多個指示(1304)。
音質音訊解碼器件隨後可基於一或多個時戳370及372同步化第一音訊傳送串流21A及第二音訊傳送串流21B以獲得同步音訊資料(1306)。音訊解碼器件24接著可基於同步音訊資料獲得增強式音訊資料(1308),音訊解碼器件24可將增強式音訊資料輸出至揚聲器3中之一或多者(1310)。
另外,先前技術可關於任何數目個不同上下文及音訊生態系統執行且不應受限於上文所描述的上下文或音訊生態系統中之任一者。下文描述多個實例上下文,但該等技術不應限於該等實例上下文。一實例音訊生態系統可包括音訊內容、電影工作室、音樂工作室、遊戲音訊工作室、基於聲道之音訊內容、寫碼引擎、遊戲音訊主體、遊戲音訊寫碼/顯現引擎,及遞送系統。
電影工作室、音樂工作室及遊戲音訊工作室可接收音訊內容。在一些實例中,音訊內容可表示獲取之輸出。電影作室可諸如藉由使用數位音訊工作站(DAW)輸出基於聲道之音訊內容(例如,呈2.0、5.1及7.1)。音樂工作室可諸如藉由使用DAW輸出基於聲道之音訊內容(例如,呈2.0及5.1)。在任一情況下,寫碼引擎可基於一或多個編解碼器(例如,AAC、AC3、杜比真HD (Dolby True HD)、杜比數位加 (Dolby Digital Plus)及DTS主音訊)接收及編碼基於聲道之音訊內容以供遞送系統輸出。遊戲音訊工作室可諸如藉由使用DAW輸出一或多個遊戲音訊主體。遊戲音訊寫碼/顯現引擎可寫碼音訊根源檔及或將音訊根源檔顯現成基於聲道之音訊內容以供遞送系統輸出。可執行該等技術之另一實例上下文包含音訊生態系統,其可包括廣播記錄音訊物件、專業音訊系統、消費型器件上捕捉、HOA音訊格式、器件上顯現、消費型音訊、TV及附件,及汽車音訊系統。
廣播記錄音訊物件、專業音訊系統及消費型器件上捕捉皆可使用HOA音訊格式寫碼其輸出。以此方式,可使用HOA音訊格式將音訊內容寫碼成單一表示,可使用器件上顯現、消費型音訊、TV及附件及汽車音訊系統播放該單一表示。換言之,可在通用音訊播放系統(亦即,與需要諸如5.1、7.1等之特定組態之情形形成對比) (諸如,音訊播放系統16)處播放音訊內容之單一表示。
可執行該等技術之上下文之其他實例包括可包括獲取元件及播放元件之音訊生態系統。獲取元件可包括有線及/或無線獲取器件(例如,Eigen麥克風)、器件上環繞聲捕捉及行動器件(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取器件可經由有線及/或無線通信聲道耦接至行動器件。
根據本發明的一或多種技術,行動器件(諸如行動通信手持機)可用於獲取音場。舉例而言,行動器件可經由有線及/或無線獲取器件及/或器件上環繞聲捕捉(例如,整合至行動器件中之複數個麥克風)獲取音場。行動器件可接著將所獲取音場寫碼成HOA係數以用於由播放元件中之一或多者播放。舉例而言,行動器件之使用者可記錄(獲取音場)實況事件(例如,集會、會議、比賽、音樂會等),且將記錄寫碼成HOA係數。
行動器件亦可利用播放元件中之一或多者來播放HOA經寫碼音場。舉例而言,行動器件可解碼HOA經寫碼音場,且將使得播放元件中之一或多者重新創建音場之信號輸出至播放元件中之一或多者。作為一個實例,行動器件可利用無線及/或無線通信聲道以將信號輸出至一或多個揚聲器(例如,揚聲器陣列、聲棒等)。作為另一實例,行動器件可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動器件可利用頭戴式耳機顯現將信號輸出至一組頭戴式耳機(例如)以創建實際的雙耳聲音。
在一些實例中,特定行動器件可獲取3D音場並且在稍後時間播放相同的3D音場。在一些實例中,行動器件可獲取3D音場,將該3D音場編碼成HOA,且將經編碼3D音場傳輸至一或多個其他器件(例如,其他行動器件及/或其他非行動器件)以用於播放。
可執行該等技術之又一上下文包括音訊生態系統,其可包括音訊內容、遊戲工作室、經寫碼音訊內容、顯現引擎及遞送系統。在一些實例中,遊戲工作室可包括可支援HOA信號之編輯的一或多個DAW。例如,一或多個DAW可包括HOA外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援HOA之新根源檔格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至顯現引擎,該顯現引擎可顯現音場以供遞送系統播放。
亦可關於例示性音訊獲取器件執行該等技術。舉例而言,可關於可包括共同地經組態以記錄3D音場之複數個麥克風之Eigen麥克風執行該等技術。在一些實例中,Eigen麥克風之該複數個麥克風可位於具有近似4 cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼器件20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊獲取上下文可包括可經組態以接收來自一或多個麥克風(諸如,一或多個Eigen麥克風)之信號的製作車。製作車亦可包括音訊編碼器。
在一些情況下,行動器件亦可包括共同地經組態以記錄3D音場之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動器件可包括可旋轉以關於行動器件之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動器件亦可包括音訊編碼器。
加固型視訊捕捉器件可進一步經組態以記錄3D音場。在一些實例中,加固型視訊捕捉器件可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊捕捉器件可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊捕捉器件可捕捉表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動器件執行該等技術。在一些實例中,行動器件可類似於上文所論述之行動器件,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上文所提及之行動器件以形成附件增強型行動器件。以此方式,與僅使用與附件增強型行動器件成一體式之聲音捕捉組件之情形相比較,附件增強型行動器件可捕捉3D音場之較高品質版本。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放器件。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放器件可經由有線或無線連接耦接至解碼器24。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放器件之任何組合上顯現音場。
數個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0 (例如,立體聲)揚聲器播放環境、具有全高前擴音器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機播放環境之行動器件。
根據本發明之一或多種技術,可利用音場之單一通用表示來在前述播放環境中之任一者上顯現音場。另外,本發明之技術使得顯現器能夠自通用表示顯現一音場以供在不同於上文所描述之環境之播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得顯現器能夠藉由其他6個揚聲器而進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多種技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之HOA係數且將該等HOA係數傳輸至解碼器,該解碼器可基於HOA係數重建構3D音場且將經重建構之3D音場輸出至顯現器,且該顯現器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建構之3D音場顯現成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中之每一者中,應理解,音訊編碼器件20可執行一方法或另外包含用以執行音訊編碼器件20經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器,例如,藉由固定功能處理電路、可程式化處理電路或其組合形成之處理器。在一些情況下,該一或多個處理器(其可表示為「處理器」)可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在執行時使得一或多個處理器執行音訊編碼器件20已經組態以執行之方法。
在一或多個實例中,所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可藉由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
同樣,在上文所描述之各種情況中之每一者中,應理解,音訊解碼器件24可執行一方法或另外包含用以執行音訊解碼器件24經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器,例如,藉由固定功能處理電路、可程式化處理電路或其組合形成之處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。
藉由實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟性磁碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟用雷射以光學方式再生資料。以上各者的組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、處理電路(包括固定功能電路及/或可程式化處理電路),或其他等效的整合式或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編解碼器中之專用硬體及/或軟體模組內。此外,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可在多種器件或裝置中實施,該等器件或裝置包括無線手持機、積體電路(IC)或IC集合(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必要求由不同硬體單元來實現。相反地,如上文所描述,各種單元可與適合之合適軟體及/或韌體一起組合在編解碼器硬體單元中或由互操作硬體單元之集合提供,該等硬件單元包括如上文所描述之一或多個處理器。
因而,該等技術之各種態樣可使得一或多個器件能夠根據以下條項操作。
條項29C.一種經組態以處理符合舊式傳送格式之後向可相容位元串流的器件,該器件包含:用於自後向可相容位元串流獲得表示第一音訊資料之第一音訊傳送串流的構件;用於自後向可相容位元串流獲得表示第二音訊資料之第二音訊傳送串流的構件;用於自後向可相容位元串流獲得識別用於第一音訊傳送串流及第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示的構件;用於基於同步化資訊之一或多個指示同步化第一音訊傳送串流及第二音訊傳送以獲得同步音訊資料串流的構件;用於基於同步音訊資料獲得增強式音訊資料的構件;及用於將增強式音訊資料輸出至一或多個揚聲器的構件。
條項30C.如條項29C之器件,其中第一音訊資料包含符合舊式音訊格式之舊式音訊資料。
條項31C.如條項30C之器件,其中舊式音訊格式包含單聲道音訊格式或立體聲音訊格式中之一者。
條項32C.如條項29C至31C之任何組合之器件,其中第二音訊資料包含增強該舊式音訊資料以獲得符合增強式音訊格式之增強式音訊資料的擴展音訊資料。
條項33C.如條項18C之器件,其中增強式音訊格式包含7.1環繞聲格式及7.1+4H環繞聲格式中之一者。
條項34C.如條項29C至33C之任何組合之器件,其中同步化資訊包含:與第一音訊傳送串流之一或多個第一部分中之每一者相關聯的第一時戳;及與第二音訊傳送串流之一或多個第二部分中之每一者相關聯的第二時戳,且其中用於同步化第一音訊傳送串流及第二音訊傳送的構件包含用於基於第一時戳及第二時戳同步化第一音訊傳送串流之一或多個第一部分及第二音訊傳送串流之一或多個第二部分中的每一者的構件。
條項35C.如條項34C之器件,其中第一部分包括第一音訊訊框,且其中第二部分包括第二音訊訊框。
條項36C.如條項34C及35C之任何組合之器件,其中第一時戳及第二時戳中的每一者為循環地重複之八位元整數。
條項37C.如條項29C至36C之任何組合之器件,其進一步包含用於經由提供第一音訊傳送串流與第二音訊傳送串流之間的粗略對準的傳輸層協定接收後向可相容位元串流。
38C.如條項29C至37C之任何組合之器件,其中舊式傳送格式包含音質編解碼器傳送格式。
條項39C.如條項38C之器件,其中音質編解碼器傳送格式包含進階音訊寫碼(AAC)傳送格式或AptX傳送格式。
條項40C.如條項29C至38C之任何組合之器件,其中舊式音訊格式包含進階音訊寫碼傳送格式,且其中用於獲得擴展音訊資料之構件包含用於自根據進階音訊寫碼傳送格式或AptX傳送格式指定之一或多個填充元素獲得擴展音訊資料的構件。
條項41C.如條項29C至40C之任何組合之器件,其中擴展音訊資料表示高階立體混響音訊資料。
條項42C.如條項29C至40C之任何組合之器件,其中第二音訊資料包含第二高階立體混響音訊資料,且其中用於獲得增強式音訊資料的構件包含:用於去混合第一音訊資料以獲得第一高階立體混響音訊資料的構件;及用於基於第一高階立體混響音訊資料及第二高階立體混響音訊資料顯現符合增強式音訊格式之增強式音訊資料的構件。
條項43C.一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:自符合舊式傳送格式之後向可相容位元串流獲得表示第一音訊資料之第一音訊傳送串流;自後向可相容位元串流獲得表示第二音訊資料之第二音訊傳送串流;自後向可相容位元串流獲得識別用於第一音訊傳送串流及第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示;基於同步化資訊之一或多個指示同步化第一音訊傳送串流及第二音訊傳送以獲得同步音訊資料串流;基於同步音訊資料獲得增強式音訊資料;及將增強式音訊資料輸出至一或多個揚聲器。
條項1D.一種經組態以獲得後向可相容位元串流之器件,該器件包含:一或多個記憶體,其經組態以儲存後向可相容位元串流之至少一部分,後向可相容位元串流符合舊式傳送格式;及一或多個處理器,其經組態以:在後向可相容位元串流中指定表示第一音訊資料之第一音訊傳送串流;在後向可相容位元串流中指定表示第二音訊資料之第二音訊傳送串流;在後向可相容位元串流中指定識別關於第一音訊傳送串流及第二音訊傳送串流之同步化資訊的一或多個指示;及輸出後向可相容位元串流。
條項2D.如條項1D之器件,其中第一音訊資料包含符合舊式音訊格式之舊式音訊資料。
條項3D.如條項2D之器件,其中舊式音訊格式包含單聲道音訊格式或立體聲音訊格式中之一者。
條項4D.如條項1D至3D之任何組合之器件,其中第二音訊資料包含增強該舊式音訊資料以獲得符合增強式音訊格式之增強式音訊資料的擴展音訊資料。
條項5D.如條項4D之器件,其中增強式音訊格式包含7.1環繞聲格式及7.1+4H環繞聲格式中之一者。
條項6D.如條項1D至5D之任何組合之器件,其中同步化資訊包含:與第一音訊傳送串流之一或多個第一部分中之每一者相關聯的第一時戳;及與第二音訊傳送串流之一或多個第二部分中之每一者相關聯的第二時戳。
條項7D.如條項6D之器件,其中第一部分包括第一音訊訊框,且其中第二部分包括第二音訊訊框。
條項8D.如條項6D及7D之任何組合之器件,其中第一時戳及第二時戳中的每一者為循環地重複之八位元整數。
條項9D.如條項1D至8D之任何組合之器件,其中一或多個處理器經組態以經由提供第一音訊傳送串流與第二音訊傳送串流之間的粗略對準之傳輸層協定輸出後向可相容位元串流。
條項10D.如條項1D至9D之任何組合之器件,其中舊式傳送格式包含音質編解碼器傳送格式。
條項11D.如條項10D之器件,其中音質編解碼器傳送格式包含進階音訊寫碼(AAC)傳送格式或AptX傳送格式。
條項12D.條項1D至10D之任何組合之器件,其中舊式音訊格式包含進階音訊寫碼傳送格式或AptX傳送格式,且其中一或多個處理器經組態以根據進階音訊寫碼傳送格式或AptX傳送格式指定擴展音訊資料作為一或多個填充元素。
條項13D.如條項1D至12D之任何組合之器件,其中第二音訊資料表示高階立體混響音訊資料。
條項14D.一種獲得符合舊式傳送格式之後向可相容位元串流的方法,該方法包含:在後向可相容位元串流中指定表示第一音訊資料之第一音訊傳送串流;在後向可相容位元串流中指定表示第二音訊資料之第二音訊傳送串流;在後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示;及輸出後向可相容位元串流。
條項15D.如條項14D之方法,其中第一音訊資料包含符合舊式音訊格式之舊式音訊資料。
條項16D.如條項15D之方法,其中舊式音訊格式包含單聲道音訊格式或立體聲音訊格式中之一者。
條項17D.如條項14D至16D之任何組合之方法,其中第二音訊資料包含增強該舊式音訊資料以獲得符合增強式音訊格式之增強式音訊資料的擴展音訊資料。
條項18D.如條項17D之方法,其中增強式音訊格式包含7.1環繞聲格式及7.1+4H環繞聲格式中之一者。
條項19D.如條項14D至18D之任何組合之方法,其中同步化資訊包含:與第一音訊傳送串流之一或多個第一部分中之每一者相關聯的第一時戳;及與第二音訊傳送串流之一或多個第二部分中之每一者相關聯的第二時戳。
條項20D.如條項19D之方法,其中第一部分包括第一音訊訊框,且其中第二部分包括第二音訊訊框。
條項21D.如條項19D及20D之任何組合之方法,其中第一時戳及第二時戳中的每一者為循環地重複之八位元整數。
條項22D.如條項14D至21D之任何組合之方法,其中輸出後向可相容位元串流包含經由提供第一音訊傳送串流與第二音訊傳送串流之間的粗略對準之傳輸層協定輸出後向可相容位元串流。
條項23D.如條項14D至22D之任何組合之方法,其中舊式傳送格式包含音質編解碼器傳送格式。
條項24D.如條項23D之方法,其中音質編解碼器傳送格式包含進階音訊寫碼(AAC)傳送格式或AptX傳送格式。
條項25D.如條項14D至23D之任何組合之方法,其中舊式音訊格式包含進階音訊寫碼傳送格式或AptX傳送格式,且其中指定擴展音訊資料包含根據進階音訊寫碼傳送格式或AptX傳送格式指定擴展音訊資料作為一或多個填充元素。
條項26D.如條項14D至25D之任何組合之方法,其中第二音訊資料表示高階立體混響音訊資料。
條項27D.一種經組態以獲得符合舊式傳送格式之後向可相容位元串流的器件,該器件包含:用於在後向可相容位元串流中指定表示第一音訊資料之第一音訊傳送串流的構件;用於在後向可相容位元串流中指定表示第二音訊資料之第二音訊傳送串流的構件;用於在後向可相容位元串流中指定識別關於第一音訊傳送串流及第二音訊傳送串流之同步化資訊的一或多個指示的構件;及用於輸出後向可相容位元串流的構件。
條項28D.如條項27D之器件,其中第一音訊資料包含符合舊式音訊格式之舊式音訊資料。
條項29D.如條項28D之器件,其中舊式音訊格式包含單聲道音訊格式或立體聲音訊格式中之一者。
條項30D.如條項27D至29D之任何組合之器件,其中第二音訊資料包含增強該舊式音訊資料以獲得符合增強式音訊格式之增強式音訊資料的擴展音訊資料。
條項31D.如條項30D之器件,其中增強式音訊格式包含7.1環繞聲格式及7.1+4H環繞聲格式中之一者。
條項32D.如條項27D至31D之任何組合之器件,其中同步化資訊包含:與第一音訊傳送串流之一或多個第一部分中之每一者相關聯的第一時戳;及與第二音訊傳送串流之一或多個第二部分中之每一者相關聯的第二時戳。
條項33D.如條項32D之器件,其中第一部分包括第一音訊訊框,且其中第二部分包括第二音訊訊框。
條項34D.如條項32D及33D之任何組合之器件,其中第一時戳及第二時戳中的每一者為循環地重複之八位元整數。
條項35D.如條項27D至34D之任何組合之器件,其中用於輸出後向可相容位元串流的構件包含用於經由提供第一音訊傳送串流與第二音訊傳送串流之間的粗略對準之傳輸層協定輸出後向可相容位元串流的構件。
條項36D.如條項27D至35D之任何組合之器件,其中舊式傳送格式包含音質編解碼器傳送格式。
條項37D.如條項36D之器件,其中音質編解碼器傳送格式包含進階音訊寫碼(AAC)傳送格式或AptX傳送格式。
條項38D.如條項27D至36D之任何組合之器件,其中舊式音訊格式包含進階音訊寫碼傳送格式或AptX傳送格式,且其中指定擴展音訊資料包含根據進階音訊寫碼傳送格式或AptX傳送格式指定擴展音訊資料作為一或多個填充元素。
條項39D.如條項27D至38D之任何組合之器件,其中第二音訊資料表示高階立體混響音訊資料。
在條項40D.一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器:在符合舊式傳送格式之後向可相容位元串流中指定表示第一音訊資料的第一音訊傳送串流;在後向可相容位元串流中指定表示第二音訊資料之第二音訊傳送串流;在後向可相容位元串流中指定識別關於第一音訊傳送串流及第二音訊傳送串流之同步化資訊的一或多個指示;及輸出後向可相容位元串流。
此外,如本文中所使用,「A及/或B」」意謂「A或B」,或「A及B」兩者。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
3‧‧‧揚聲器 5‧‧‧麥克風 10‧‧‧系統 11‧‧‧HOA係數 11'‧‧‧HOA係數 12‧‧‧內容創建者系統 13‧‧‧揚聲器資訊 14‧‧‧內容消費者 15‧‧‧中間格式化音訊資料 16‧‧‧音訊播放系統 17‧‧‧位元串流 17'‧‧‧經重建構音訊資料 20‧‧‧空間音訊編碼器件 21‧‧‧位元串流 21A-1‧‧‧ADTS訊框 21A-4‧‧‧ADTS訊框 21B-1‧‧‧ADTS訊框 21B-4‧‧‧ADTS訊框 22‧‧‧音訊顯現器 24‧‧‧音訊解碼器件 25A‧‧‧揚聲器饋入 25B‧‧‧後向可相容音訊信號 25B'‧‧‧舊式音訊資料 26‧‧‧去混合單元 27‧‧‧反相混合單元 30‧‧‧傳送聲道 30A‧‧‧傳送聲道 30A'‧‧‧環境HOA係數 30B‧‧‧傳送聲道 30B'‧‧‧傳送聲道 30C‧‧‧傳送聲道 30C'‧‧‧傳送聲道 30D'‧‧‧舊式ESF{W^, X^, Y^, Z^}聲道 315‧‧‧擴展傳送聲道 317‧‧‧後設資料 319‧‧‧標頭 350‧‧‧填充元素 350A‧‧‧填充元素 350B‧‧‧填充元素 350C‧‧‧填充元素 350D‧‧‧填充元素 350E‧‧‧填充元素 370A‧‧‧時戳 370D‧‧‧時戳 372A‧‧‧時戳 372D‧‧‧時戳 400‧‧‧HOA轉碼器 402‧‧‧位元速率分配單元 403‧‧‧一階HOA音訊資料 404‧‧‧混合單元 405‧‧‧殘餘音訊資料 406‧‧‧音質音訊編碼器件 406A‧‧‧音質音訊編碼器件 406B‧‧‧音質音訊編碼器件 407A‧‧‧ADTS訊框 407B‧‧‧ADTS訊框 407C‧‧‧ADTS訊框 407M‧‧‧ADTS訊框 490A‧‧‧PA解碼器 490B‧‧‧PA解碼器 492‧‧‧HTF解碼器 750‧‧‧聲音分量 750A‧‧‧聲音分量 750N‧‧‧聲音分量 752‧‧‧空間分量 752A‧‧‧空間分量 752N‧‧‧空間分量 754‧‧‧表 800‧‧‧VHTF表示 802‧‧‧空間表示 806‧‧‧VHTF表示 808‧‧‧實例 810‧‧‧VHTF表示 812‧‧‧優先級資訊 900‧‧‧系統 902‧‧‧麥克風陣列 904‧‧‧計算器件 906‧‧‧計算器件 908‧‧‧麥克風信號 910A‧‧‧收發器 910B‧‧‧收發器 910C‧‧‧收發器 1000A‧‧‧音訊編碼器 1002A‧‧‧音訊解碼器 1100‧‧‧變換單元 1100'‧‧‧反變換單元 1102‧‧‧子頻帶濾波器 1102'‧‧‧反子頻帶濾波器 1104‧‧‧增益形狀分析單元 1104'‧‧‧增益形狀合成單元 1106‧‧‧能量量化器 1106'‧‧‧能量反量化器 1108‧‧‧向量量化器 1108'‧‧‧向量反量化器 1110‧‧‧位元串流編碼器 1110'‧‧‧位元串流解碼器 1112‧‧‧頻域音訊資料 1114‧‧‧子頻帶 1114'‧‧‧子頻帶 1116‧‧‧能量位準 1118‧‧‧殘餘向量 1120‧‧‧粗略能量 1122‧‧‧精細能量 1124‧‧‧殘餘ID 1128‧‧‧子頻帶處理單元 1200‧‧‧區塊 1202‧‧‧區塊 1204‧‧‧區塊 1206‧‧‧區塊 1300‧‧‧區塊 1302‧‧‧區塊 1304‧‧‧區塊 1306‧‧‧區塊 1308‧‧‧區塊 1310‧‧‧區塊
圖1為說明具有各種階數及子階數之球諧基底函數之圖。
圖2為說明可執行本發明中所描述之技術的各種態樣的包括音質音訊編碼器件之系統的圖。
圖3A至圖3D為更詳細地說明圖2之系統之各種態樣的方塊圖。
圖4為說明經組態以執行本發明中所描述之技術的各種態樣的圖3A至圖3D之實例中示出的音質音訊編碼器的實例的方塊圖。
圖5為更詳細地說明圖3A至圖3D之音質音訊解碼器之實施的方塊圖。
圖6A及圖6B為說明在執行本發明中所描述之技術的各種態樣時圖2之內容創建者系統的方塊圖。
圖7A及圖7B為根據本發明中所描述之技術的各種態樣說明圖2之位元串流可如何經配置以實現後向相容性及延展性的圖。
圖8為更詳細地說明圖6B之音訊傳送串流的圖。
圖9為說明在執行本發明中所描述之技術的各種態樣時圖2至圖4之空間音訊編碼器件之各種態樣的圖。
圖10A至圖10C為根據本發明中所描述之統一資料物件格式技術的各種態樣說明位元串流內之不同表示的圖。
圖11為說明經組態以執行本發明中所描述之技術的各種態樣之不同系統的方塊圖。
圖12為說明在執行本發明中所描述之技術的各種態樣時圖2之音質音訊編碼器件之實例操作的流程圖。
圖13為說明在執行根據本發明中所描述之技術的各種態樣時圖2之音訊解碼器件的實例操作之流程圖。
1300‧‧‧區塊
1302‧‧‧區塊
1304‧‧‧區塊
1306‧‧‧區塊
1308‧‧‧區塊
1310‧‧‧區塊

Claims (30)

  1. 一種經組態以處理一後向可相容位元串流之器件,該器件包含: 一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及 一或多個處理器,其經組態以: 自該後向可相容位元串流獲得表示第一音訊資料之一第一音訊傳送串流; 自該後向可相容位元串流獲得表示第二音訊資料之一第二音訊傳送串流; 自該後向可相容位元串流獲得表示用於該第一音訊傳送串流及該第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示; 基於表示該同步化資訊之該一或多個指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流; 基於該同步音訊資料獲得增強式音訊資料;及 將該增強式音訊資料輸出至一或多個揚聲器。
  2. 如請求項1之器件,其中該第一音訊資料包括符合一舊式音訊格式之舊式音訊資料。
  3. 如請求項2之器件,其中舊式音訊格式包含一單聲道音訊格式或一立體聲音訊格式中之一者。
  4. 如請求項1之器件,其中該第二音訊資料包含增強該舊式音訊資料以獲得符合一增強式音訊格式之增強式音訊資料的擴展音訊資料。
  5. 如請求項4之器件,其中該增強式音訊格式包含一7.1環繞聲格式及一7.1+4H環繞聲格式中之一者。
  6. 如請求項1之器件, 其中該同步化資訊包含: 一第一時戳,其與該第一音訊傳送串流之一或多個第一部分中的每一者相關聯;及 一第二時戳,其與該第二音訊傳送串流之一或多個第二部分中的每一者相關聯,且 其中該一或多個處理器經組態以基於該第一時戳及該第二時戳同步化該第一音訊傳送串流之該一或多個第一部分及該第二音訊傳送串流之該一或多個第二部分中的每一者。
  7. 如請求項6之器件, 其中該第一部分包括第一音訊訊框,且 其中該第二部分包括第二音訊訊框。
  8. 如請求項6之器件,其中該第一時戳及該第二時戳中的每一者為循環地重複之一八位元整數。
  9. 如請求項1之器件,其中該一或多個處理器進一步經組態以經由提供該第一音訊傳送串流與該第二音訊傳送串流之間的粗略對準之一傳輸層協定接收該後向可相容位元串流。
  10. 如請求項1之器件,其中該舊式傳送格式包含一音質編解碼器傳送格式。
  11. 如請求項10之器件,其中該音質編解碼器傳送格式包含一進階音訊寫碼(AAC)傳送格式或一AptX傳送格式。
  12. 如請求項1之器件, 其中該舊式音訊格式包含一進階音訊寫碼傳送格式或一AptX傳送格式,且 其中該一或多個處理器經組態以自根據該進階音訊寫碼傳送格式或該AptX傳送格式指定之一或多個填充元素獲得該擴展音訊資料。
  13. 如請求項1之器件,其中該擴展音訊資料表示高階立體混響音訊資料。
  14. 如請求項1之器件, 其中該一或多個處理器經組態以去混合該第一音訊資料以獲得第一高階立體混響音訊資料, 其中該第二音訊資料包含第二高階立體混響音訊資料,且 其中該一或多個處理器經組態以基於該第一高階立體混響音訊資料及該第二高階立體混響音訊資料顯現符合一增強式音訊格式之增強式音訊資料。
  15. 一種處理符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含: 自該後向可相容位元串流獲得表示第一音訊資料之一第一音訊傳送串流; 自該後向可相容位元串流獲得表示第二音訊資料之一第二音訊傳送串流; 自該後向可相容位元串流獲得識別用於該第一音訊傳送串流及該第二音訊傳送串流中之一或多者之同步化資訊的一或多個指示; 基於表示該同步化資訊之該一或多個指示同步化該第一音訊傳送串流及該第二音訊傳送以獲得同步音訊資料串流; 基於該同步音訊資料獲得增強式音訊資料;及 將該增強式音訊資料輸出至一或多個揚聲器。
  16. 如請求項15之方法,其中該第一音訊資料包含符合一舊式音訊格式之舊式音訊資料。
  17. 如請求項16之方法,其中舊式音訊格式包含一單聲道音訊格式或一立體聲音訊格式中之一者。
  18. 如請求項15之方法,其中該第二音訊資料包含增強該舊式音訊資料以獲得符合一增強式音訊格式之增強式音訊資料的擴展音訊資料。
  19. 如請求項18之方法,其中該增強式音訊格式包含一7.1環繞聲格式及一7.1+4H環繞聲格式中之一者。
  20. 如請求項15之方法, 其中該同步化資訊包含: 一第一時戳,其與該第一音訊傳送串流之一或多個第一部分中的每一者相關聯;及 一第二時戳,其與該第二音訊傳送串流之一或多個第二部分中的每一者相關聯,且 其中同步化該第一音訊傳送串流及該第二音訊傳送包含基於該第一時戳及該第二時戳同步化該第一音訊傳送串流之該一或多個第一部分及該第二音訊傳送串流之該一或多個第二部分中的每一者。
  21. 如請求項20之方法, 其中該第一部分包括第一音訊訊框,且 其中該第二部分包括第二音訊訊框。
  22. 如請求項20之方法,其中該第一時戳及該第二時戳中的每一者為循環地重複之一八位元整數。
  23. 如請求項15之方法,其進一步包含經由提供該第一音訊傳送串流與該第二音訊傳送串流之間的粗略對準之一傳輸層協定接收該後向可相容位元串流。
  24. 如請求項15之方法,其中該舊式傳送格式包含一音質編解碼器傳送格式。
  25. 如請求項24之方法,其中該音質編解碼器傳送格式包含一進階音訊寫碼(AAC)傳送格式或一AptX傳送格式。
  26. 如請求項15之方法, 其中該舊式音訊格式包含一進階音訊寫碼傳送格式或一AptX傳送格式,且 其中獲得該擴展音訊資料包含自根據該進階音訊寫碼傳送格式或該AptX傳送格式指定之一或多個填充元素獲得該擴展音訊資料。
  27. 如請求項15之方法,其中該擴展音訊資料表示高階立體混響音訊資料。
  28. 如請求項15之方法, 其中該第二音訊資料包含第二高階立體混響音訊資料,且 其中獲得該增強式音訊資料包含: 去混合該第一音訊資料以獲得第一高階立體混響音訊資料;及 基於該第一高階立體混響音訊資料及該第二高階立體混響音訊資料顯現符合一增強式音訊格式之該增強式音訊資料。
  29. 一種經組態以獲得一後向可相容位元串流之器件,該器件包含: 一或多個記憶體,其經組態以儲存該後向可相容位元串流之至少一部分,該後向可相容位元串流符合一舊式傳送格式;及 一或多個處理器,其經組態以: 在該後向可相容位元串流中指定表示第一音訊資料之一第一音訊傳送串流; 在該後向可相容位元串流中指定表示第二音訊資料之一第二音訊傳送串流; 在該後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示;及 輸出該後向可相容位元串流。
  30. 一種獲得符合一舊式傳送格式之一後向可相容位元串流的方法,該方法包含: 在該後向可相容位元串流中指定表示第一音訊資料之一第一音訊傳送串流; 在該後向可相容位元串流中指定表示第二音訊資料之一第二音訊傳送串流; 在該後向可相容位元串流中指定識別關於該第一音訊傳送串流及該第二音訊傳送串流之同步化資訊的一或多個指示;及 輸出該後向可相容位元串流。
TW108122228A 2018-07-03 2019-06-25 以後向可相容音訊傳送同步化增強式音訊傳送 TW202007189A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862693784P 2018-07-03 2018-07-03
US62/693,784 2018-07-03
US16/450,682 2019-06-24
US16/450,682 US20200013426A1 (en) 2018-07-03 2019-06-24 Synchronizing enhanced audio transports with backward compatible audio transports

Publications (1)

Publication Number Publication Date
TW202007189A true TW202007189A (zh) 2020-02-01

Family

ID=67211983

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108122228A TW202007189A (zh) 2018-07-03 2019-06-25 以後向可相容音訊傳送同步化增強式音訊傳送

Country Status (5)

Country Link
US (1) US20200013426A1 (zh)
EP (1) EP3818522A1 (zh)
CN (1) CN112400204A (zh)
TW (1) TW202007189A (zh)
WO (1) WO2020009841A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
GB202002900D0 (en) 2020-02-28 2020-04-15 Nokia Technologies Oy Audio repersentation and associated rendering
US11503405B2 (en) * 2020-06-03 2022-11-15 Bose Corporation Capturing and synchronizing data from multiple sensors
WO2023025143A1 (zh) * 2021-08-24 2023-03-02 北京字跳网络技术有限公司 音频信号的处理方法和装置
WO2024076828A1 (en) * 2022-10-05 2024-04-11 Dolby Laboratories Licensing Corporation Method, apparatus, and medium for encoding and decoding of audio bitstreams with parametric flexible rendering configuration data
WO2024074284A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for efficient encoding and decoding of audio bitstreams
WO2024074282A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for encoding and decoding of audio bitstreams
WO2024074285A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for encoding and decoding of audio bitstreams with flexible block-based syntax
WO2024074283A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for decoding of audio signals with skippable blocks
CN116110410B (zh) * 2023-04-14 2023-06-30 北京算能科技有限公司 音频数据处理方法、装置、电子设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9822087D0 (en) * 1998-10-09 1998-12-02 Snell & Wilcox Ltd Improvements in data compression
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US7643513B2 (en) * 2005-11-30 2010-01-05 Broadcom Corporation Method and system for audio and video transport
JP5238069B2 (ja) * 2008-04-25 2013-07-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ トランスポート・データストリーム内で参照するフレキシブル・サブストリーム
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9154834B2 (en) * 2012-11-06 2015-10-06 Broadcom Corporation Fast switching of synchronized media using time-stamp management
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9414100B2 (en) * 2014-03-31 2016-08-09 Arris Enterprises, Inc. Adaptive streaming transcoder synchronization
US11212333B1 (en) * 2015-05-29 2021-12-28 Ribbon Communications Operating Company, Inc. Methods and apparatus for synchronizing transcoded and/or transrated RTP packets
US20190349676A1 (en) * 2016-11-08 2019-11-14 Knowles Electronics, Llc Stream synchronization

Also Published As

Publication number Publication date
WO2020009841A1 (en) 2020-01-09
EP3818522A1 (en) 2021-05-12
CN112400204A (zh) 2021-02-23
US20200013426A1 (en) 2020-01-09

Similar Documents

Publication Publication Date Title
TW202007189A (zh) 以後向可相容音訊傳送同步化增強式音訊傳送
US9875745B2 (en) Normalization of ambient higher order ambisonic audio data
US9847088B2 (en) Intermediate compression for higher order ambisonic audio data
US9838819B2 (en) Reducing correlation between higher order ambisonic (HOA) background channels
US10075802B1 (en) Bitrate allocation for higher order ambisonic audio data
KR20160015284A (ko) 회전된 고차 앰비소닉스의 바이노럴화
KR102640460B1 (ko) 고차 앰비소닉 오디오 데이터에 대한 계층화된 중간 압축
US20190392846A1 (en) Demixing data for backward compatible rendering of higher order ambisonic audio
US20200120438A1 (en) Recursively defined audio metadata
US10986456B2 (en) Spatial relation coding using virtual higher order ambisonic coefficients
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
TW201714169A (zh) 自以通道為基礎之音訊至高階立體混響之轉換
TW202107450A (zh) 用於心理聲學之音訊寫碼的使基於場景的音訊資料關聯
US10999693B2 (en) Rendering different portions of audio data using different renderers
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
TW202109507A (zh) 基於用於心理聲學之音訊寫碼之經判定位元分配的量化空間分量