TWI673708B - 使用串流識別符之音訊解碼器、音訊編碼器、用以提供已解碼音訊信號之方法、用以提供已編碼音訊信號之方法、音訊串流、音訊串流提供器及電腦程式 - Google Patents
使用串流識別符之音訊解碼器、音訊編碼器、用以提供已解碼音訊信號之方法、用以提供已編碼音訊信號之方法、音訊串流、音訊串流提供器及電腦程式 Download PDFInfo
- Publication number
- TWI673708B TWI673708B TW107100917A TW107100917A TWI673708B TW I673708 B TWI673708 B TW I673708B TW 107100917 A TW107100917 A TW 107100917A TW 107100917 A TW107100917 A TW 107100917A TW I673708 B TWI673708 B TW I673708B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- information
- stream
- frame
- decoder
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims description 76
- 238000004590 computer program Methods 0.000 title claims description 14
- 230000007704 transition Effects 0.000 claims abstract description 63
- 230000009466 transformation Effects 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 7
- 230000011664 signaling Effects 0.000 claims description 5
- 230000036316 preload Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 17
- 238000005070 sampling Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 230000009191 jumping Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 101100386623 Mus musculus Amd2 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Stereophonic System (AREA)
Abstract
一種用於基於一已編碼音訊信號表示提供一已解碼音訊信號表示的音訊解碼器經組配以取決於一組配資訊而調整解碼參數且亦經組配以使用一當前組配資訊來解碼一或多個音訊訊框。該音訊解碼器經組配以用該當前組配資訊比較與待解碼之一或多個訊框相關聯的一組配結構中之一組配資訊,且在與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊或與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊之一相關部分不同於該當前組配資訊的情況下進行一轉變,以使用與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊作為一新組配資訊來執行一解碼。該音訊解碼器經組配以在比較該組配資訊時考慮包括於該組配結構中的一串流識別符資訊,使得先前由該音訊解碼器獲取之一串流識別符與由與待解碼之該一或多個訊框相關聯的該組配結構中之該串流識別符資訊表示的一串流識別符之間的一差異使得進行該轉變。
Description
發明領域 根據本發明之實施例係關於一種用於基於已編碼音訊信號表示提供已解碼音訊信號表示的音訊解碼器。
根據本發明之另外實施例係關於一種用於提供已編碼音訊信號表示之音訊編碼器。
根據本發明之另外實施例係關於一種用於提供已解碼音訊信號表示之方法。
根據本發明之另外實施例係關於一種用於提供已編碼音訊信號表示之方法。
根據本發明之另外實施例係關於一種音訊串流。
根據本發明之另外實施例係關於一種音訊串流提供器。
根據本發明之另外實施例係關於一種用於執行該等方法中之一者之電腦程式。
發明背景 在下文中,將描述本發明之態樣及根據本發明之實施例之可能使用情境所隱含的問題。
存在以下情形:在不同音訊串流之間或在已編碼音訊訊框之不同序列之間存在轉變。舉例而言,音訊訊框之不同序列可包含不同音訊內容,在不同音訊內容之間應進行轉變。
舉例而言,當在自適應性串流傳輸使用狀況下使用MPEG-D USAC (ISO/IEC 23003-3 +修正案1 +修正案2 +修正案3)時,可發生以下情形:所謂的適應集合(其可例如將使用者可在之間進行切換的兩個或多於兩個串流分組)內之兩個串流具有確切相同的組配結構,即使其位元率不同。舉例而言,此情形可在編碼器簡單地選擇針對兩個位元率以確切相同編碼工具集合來操作編碼器的情況下發生。
舉例而言,音訊編碼器可使用相同的基本編碼設定(該等基本編碼設定亦經傳信至音訊解碼器),但仍可提供音訊值之不同表示。舉例而言,音訊編碼器可使用頻譜值之粗略量化,此在需要達成較低位元率時引起較小的位元要求,即使基本編碼器設定或解碼器設定保持不變。
然而,此情形(舉例而言,出現其中適應集合內之兩個串流具有確切相同組配結構,儘管其位元率不同的情形)照此並不具有問題。
然而,已發現,在自適應性串流傳輸使用狀況下,解碼器應知曉隨後接收之存取單元(或「訊框」)是否源於相同串流或是否已發生串流改變。
已發現,若已偵測到串流改變,則在一些狀況下,音訊解碼器將貫穿操作步驟之指定序列,其確保以下情形: · 一個解碼器執行個體經適當關斷,且暫時在內部儲存之已解碼信號部分經饋送至解碼器輸出-被稱為「清除」之處理序。 · 解碼器將使用與已改變串流相關聯的組配資訊來重新具現化及重新組配自身。 · 解碼器將「預載」在即刻播出訊框(IPF)中附掛之嵌入式存取單元。存取單元之此預載將解碼器至於完全初始化狀態中,使得來自解碼第一訊框之輸出引起完全相容的已解碼音訊信號。 · 視情況,舉例而言,取決於對應位元串流傳信元素,來自解碼器清除處理序之音訊輸出及來自解碼經重新組配解碼器之第一存取單元之輸出遍及極短時間段而平滑轉換。
以上所有步驟可例如經執行以達成獲得自一串流之已解碼音訊至另一串流之已解碼音訊之「無縫」轉變的唯一目標。「無縫」意謂不存在聲訊人為效應(artefact),亦不存在來自串流轉變自身之故障。事實上,串流轉變可由於例如總寫碼品質或音訊頻寬或音色之變化而在感知上顯而易見。然而,轉變之實際(時間)點自身並不引起聽覺印象。換言之,在轉變點不存在「點選」或「雜訊猝發」或相似干擾聲音。
已發現,是否已發生串流改變之資訊可自以下操作獲得:分析嵌入於即刻播出訊框中之組配結構且比較該組配結構與當前已解碼串流之組配。舉例而言,若且僅若所接收組配不同於當前組配,則音訊解碼器才可假定串流改變。
舉例而言,若解碼器以變化之位元率接收串流之即刻播出訊框(IPF),則其偵測到音訊預載延伸酬載之存在、擷取組配結構且將進行此新組配與當前組配之間的比較。為了獲得另外細節,亦參見ISO/IEC 23003-3:2012/修正案3,子條項「位元率適應」。
然而,已發現,若兩個組配結構(當前的及新的)相同,則解碼器將未能辨識出其正接收來自與之前串流不同的串流之存取單元,且因此將不重新組配該解碼器,該解碼器亦不解碼駐存於IPF之延伸酬載中之音訊預載。
替代地,解碼器將試圖繼續進行解碼,如同其已自先前作用中串流接收繼續之存取單元一樣。此將(例如在不使用或評估streamID之習知狀況下)導致以下很可能情形:最後已解碼訊框與新串流之新訊框之視窗邊界及寫碼模式並不相對應,此繼而導致聲訊人為效應,諸如點選或雜訊猝發。此將阻撓IPF及基於串流之間的無縫轉變之概念的自適應性音訊串流傳輸想法的主要目的。
在下文中,將描述一些習知途徑。
應注意,對於統一話語及音訊寫碼(USAC),不存在已知解決方案。
在MPEG-H 3D音訊(ISO/IEC 23008 -3+所有修正案)中,可在借助於MPEG-H音訊串流(「MHAS」)經封包化串流格式傳輸音訊資料的情況下解決問題。MHAS封裝含有可在多個串流之間不同且因此可服務在多個組配之間進行區分之目的的封包標籤。然而,並未針對MPEG-D USAC指定MHAS格式。
在MPEG-4 HE-AAC (ISO/IEC 14496-3 +所有修正案)中,存在以下規避方案:要求編碼器確保在潛在轉變點(所謂的串流存取點(SAP))處,所有串流具有相同的視窗形狀及視窗序列以及關於所使用信號處理工具之進一步約束。此規避方案可對所得音訊品質有不利的影響。上文所提及之IPF經確切地設計為使新編碼解碼器免於所有此等約束。
總之,需要以下概念:允許在不同音訊串流之間進行切換且提供額外負擔之量與實施簡易性之間的改良之折衷。
發明概要 根據本發明之一實施例建立一種用於基於一已編碼音訊信號表示提供一已解碼音訊信號表示的音訊解碼器。該音訊解碼器經組配以取決於一組配資訊而調整解碼參數。該音訊解碼器經組配以使用一當前組配(例如使用一當前作用中組配資訊)來解碼一或多個音訊訊框。此外,該音訊解碼器經組配以比較與待解碼之一或多個訊框相關聯的一組配結構中之一組配資訊與該當前組配資訊,且在與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊或與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊之一相關部分(例如直至並包括該串流識別符)不同於該當前組配資訊的情況下進行一轉變,以使用與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊作為一新組配資訊來執行一解碼。該音訊解碼器經組配以在比較該組配資訊時考慮包括於該組配結構中的一串流識別符資訊,使得先前由該音訊解碼器獲取之一串流識別符與由與待解碼之該一或多個訊框相關聯的該組配結構中之該串流識別符資訊表示的一串流識別符之間的一差異使得進行該轉變。
根據本發明之此實施例係基於以下想法:包括於組配結構中的串流識別符資訊之存在及評估允許在音訊解碼器之側處區別不同串流,且因此允許執行轉變,即使在實際解碼組配(其可例如由組配結構中之組配資訊之其餘部分描述)針對兩個串流相同的狀況下亦如此。因此,可將該串流識別符用作用以區分在之間可進行轉變的不同串流之準則。由於串流識別符資訊包括於組配結構中(例如連同調整音訊解碼器之解碼參數之其他組配資訊一起),故在決定是否應進行轉變時沒有必要評估來自不同協定層之任何資訊。舉例而言,串流識別符資訊包括於定義解碼參數之資料結構(「組配結構」)之子資料結構中,使得沒有必要將來自封包層級之任何資訊轉遞至實際音訊解碼器。藉由使串流識別符資訊包括於組配結構中(此允許音訊解碼器辨識出自第一串流至第二串流之轉變,但此對解碼單個串流之相連部分時對解碼參數沒有任何影響),在並不自不同協定層級存取資訊的情況下(甚至在相同解碼參數用於不同串流中之情形下)亦有可能在音訊解碼器之側處辨識出不同串流之間的切換。而且,在不同串流之間的切換可允許之位置處沒有必要將相等解碼參數用於不同串流中。
總之,如由獨立請求項1所定義之概念允許以適中實施複雜性(例如並不自不同協定層級擷取專用傳信資訊且將其轉遞至音訊解碼器)辨識不同串流之間的切換,同時避免了在轉變點處強加特定寫碼/解碼設定(諸如視窗之選擇等等)之需要。因此,亦可避免音訊品質之過多額外負擔及降級。
在一較佳實施例中,該音訊解碼器經組配以檢查該組配結構是否包含該串流識別符資訊,且在該串流識別符資訊包括於該組配結構中的情況下在該比較中選擇性地考慮該串流識別符資訊。因此,沒有必要使在各組配結構中包括該串流識別符資訊。實情為,有可能在不需要不同串流之間的切換所處之音訊訊框之組配結構中省略該串流識別符。因此,可節省一些位元,且可在不同串流之間的切換不可允許之點處避免了對串流識別符資訊之評估。
在一較佳實施例中,該音訊解碼器經組配以檢查該組配結構是否包含一組配延伸結構且檢查該組配延伸結構是否包含該串流識別符。該音訊解碼器可經組配以在該串流識別符資訊包括於該組配延伸結構中的情況下在該比較中選擇性地考慮該串流識別符資訊。
因此,可將該串流識別符置放於存在係選用的一組配延伸結構中,其中該串流識別符資訊之該存在可甚至被認為是選用的,即使該組配延伸結構存在。因此,該音訊解碼器可靈活地辨識該串流識別符資訊是否存在,此向音訊編碼器提供避免使包括不必要資訊的可能性。將串流識別符置放於可經啟動及撤銷啟動(例如藉由組配結構之固定(始終存在)部分中之旗標)之資料結構中,可在需要時確切地置放串流識別符資訊,同時在不需要串流識別符資訊的情況下節省位元。此情形有利,此係由於沒有必要使存在組配結構的各訊框亦包括串流識別符資訊,此係因為串流之間的切換通常僅在指定時間係可能的。
在一較佳實施例中,該音訊解碼器經組配以接受該組配延伸結構中之組配資訊項目的一可變排序。舉例而言,該音訊解碼器經組配以在比較與待解碼之一或多個訊框相關聯的該組配結構中之該組配資訊與該當前組配資訊時考慮在該組配延伸結構中配置於該串流識別符資訊之前(例如被命名為「streamID」之項目之前)的組配資訊項目(例如組配延伸部分) (例如以及考慮該串流識別符資訊)。此外,該音訊解碼器可經組配以在比較與待解碼之一或多個訊框相關聯的該組配結構中之該組配資訊與該當前組配資訊時不考慮在該組配延伸結構(例如「UsacConfigExtension()」)中配置於該串流識別符資訊之後的組配資訊項目(例如組配延伸部分)。
藉由使用此概念,可以極具靈活性方式進行不同串流之間的轉變之偵測。舉例而言,指示音訊串流之「顯著」改變的所有此類組配資訊項目可在組配延伸結構中置放於串流識別符資訊之前,使得此等參數之改變觸發自一串流至另一串流之轉變。另一方面,藉由在比較與待解碼之一或多個訊框相關聯的該組配結構中之該資訊與該當前組配資訊時不考慮一些組配資訊項目,有可能改變該音訊解碼器之「次級」組配參數,而不觸發可與一重新初始化連接之「轉變」,亦即自一串流至另一串流之切換。換言之,藉由在該比較中僅評估在該組配延伸結構中配置於該串流識別符資訊之前的組配資訊項目以及該串流識別符資訊自身,可避免使「次級」解碼參數之任何改變觸發「轉變」。實情為,有可能使音訊編碼器將此類「次級」組配資訊項目(其係關於次級解碼參數)在該組配延伸結構中置放於該串流識別符資訊之後。接著,該音訊編碼器可改變串流內之此類「次級」組配資訊項目,而並不以該等改變中之各者觸發「轉變」(或重新初始化)。另一方面,可將在一串流期間保持不變之彼等組配資訊項目在該組配延伸結構中置放於該串流識別符資訊之前,且此類「高度相關」組配資訊項目之一改變(其可例如指示該音訊串流之一「顯著」改變)將引起一「轉變」(且通常引起該音訊解碼器之一重新初始化)。由於音訊解碼器亦可接受組配延伸結構中之組配資訊項目之可變排序,故音訊編碼器可取決於信號特性或取決於其他準則而決定哪些組配資訊項目之改變應觸發「轉變」或音訊解碼器之重新初始化,且哪些組配資訊項目之改變在一串流內應係可能的,而不會觸發「轉變」或音訊解碼器之重新初始化。
在一較佳實施例中,該音訊解碼器經組配以基於在該組配延伸結構中之一或多個組配資訊項目之前的一或多個組配延伸類型識別符而識別該等各別組配資訊項目。藉由使用此類組配延伸類型識別符,有可能實施組配資訊項目之可變排序。
在一較佳實施例中,該組配延伸結構為該組配結構之一子資料結構,其中該組配延伸結構之一存在係由該組配結構之由該音訊解碼器評估的一位元指示。該串流識別符資訊為該組配延伸結構之一子資料項目,其中該串流識別符資訊之一存在係由與該串流識別符資訊相關聯的由該音訊解碼器評估之一組配延伸類型識別符指示。因此,有可能靈活地決定應在何時將串流識別符資訊新增至音訊串流,且音訊解碼器可容易判定此串流識別符資訊何時可用。因此,在不同串流之間可存在切換所處之點處包括音訊串流之串流識別符資訊(其需要數個位元)係足夠的。在不存在在不同串流之間進行切換的可能性所處之位置處之相連音訊串流內之即刻播出訊框(IPF)並不需要攜載串流識別符資訊,此節省位元率。
在一較佳實施例中,該音訊解碼器經組配以獲得及處理包含一隨機存取資訊(例如一「音訊預載延伸酬載」,其亦被指定為「AudioPreRoll()」)之一音訊訊框表示(例如一即刻播出訊框,IPF)。該隨機存取資訊包含一組配結構(例如被指定為「Config()」)及用於將該音訊解碼器之一處理鏈之一狀態帶入至一所要狀態之資訊(例如以「AccessUnit()」指定)。該音訊解碼器經組配以在如下情況下在由在獲得包含該隨機存取資訊(例如即刻播出訊框IPF)之該音訊訊框表示之前處理(解碼)的一音訊訊框所表示的一音訊資訊與在使用該隨機存取資訊之該組配結構進行該音訊解碼器之一初始化之後及在使用用於將一處理鏈之一狀態帶入至一所要狀態之該資訊調整該音訊解碼器之一狀態之後基於包含該隨機存取資訊之該音訊訊框表示而導出的一音訊資訊之間進行平滑轉換:該音訊解碼器發現該隨機存取資訊之該組配結構(及例如「Config()」)中的該組配資訊或該隨機存取資訊之該組配結構中的該組配資訊之一相關部分不同於該當前組配資訊。舉例而言,若值「numPreRollFrames」為零,則可省略預載訊框之解碼。
換言之,藉由評估組配結構中之該組配資訊或其相關其部分(例如直至並包括串流識別符資訊),該音訊解碼器可辨識在不同串流之間是否存在轉變,且在不同串流之間存在轉變之狀況下,該音訊解碼器可利用該隨機存取資訊。該隨機存取資訊可幫助將該音訊解碼器之處理鏈帶入至適當狀態(在不存在轉變的情況下,此通常將由一或多個先前訊框實行),以藉此避免轉變處之人為效應。總之,此概念允許在不同串流之間無人為效應切換,其中該音訊解碼器不需要來自不同協定層級之任何資訊,惟訊框表示序列除外。
在一較佳實施例中,該音訊解碼器經組配以在如下情況下繼續解碼,而不執行該音訊解碼器之一初始化且不使用用於將該音訊解碼器之該處理鏈之一狀態帶入至一所要狀態之該資訊(例如一預載延伸酬載):該音訊解碼器已解碼直接在由包含該隨機存取資訊(例如一即刻播出訊框)之該音訊訊框表示所表示的一音訊訊框之前的一音訊訊框,且該音訊解碼器發現該隨機存取資訊之該組配結構中的該組配資訊之該相關部分等於該當前組配資訊。因此,若該音訊解碼器藉由比較該組配結構中之該組配資訊之該相關部分與該當前組配資訊而辨識出在不同串流之間不存在轉變,而是存在同一串流之一相連播出,則將藉由執行該音訊解碼器之一初始化而造成的額外負擔(例如一處理額外負擔或計算額外負擔)得以避免。因此,達成高效率等級,且僅在需要時執行音訊解碼器之初始化。
在一較佳實施例中,該音訊解碼器經組配以在如下情況下使用該隨機存取資訊之該組配結構來執行該音訊解碼器之一初始化且使用用於將該處理鏈之一狀態帶入至一所要狀態的該資訊來調整該音訊解碼器之一狀態:該音訊解碼器尚未解碼直接在由包含該隨機存取資訊之該音訊訊框表示所表示的一音訊訊框之前的一音訊訊框。換言之,若存在實際「隨機存取」(其中該音訊解碼器知曉之前的音訊訊框尚未已解碼),則亦執行初始化。因此,在真實「隨機存取」之狀況下(亦即,在跳躍至某一訊框時)且在不同串流之間進行切換時使用該隨機存取資訊(其中「真實」隨機存取可經傳信至該音訊解碼器,且其中不同串流之間的切換可僅由該音訊解碼器藉由評估該串流識別符資訊而可辨識)。
應注意,如此處所論述之音訊解碼器可視情況由本文中所描述之特徵、功能性及細節中之任一者個別地或組合地補充。
根據本發明之一實施例建立一種用於提供一已編碼音訊信號表示之音訊編碼器。該音訊編碼器經組配以使用編碼參數來編碼一音訊信號之重疊或非重疊訊框,以獲得該已編碼音訊信號表示。該音訊編碼器經組配以提供描述該等編碼參數(或等效地,待由一音訊解碼器使用之解碼參數)之一組配結構。該組配結構亦包含一串流識別符。
因此,該音訊編碼器提供可由上文所提及之該音訊解碼器良好使用之一音訊信號表示。舉例而言,該音訊編碼器可包括不同串流之組配結構中的不同串流識別符。因此,該串流識別符可為並不描述待由音訊解碼器使用之解碼器組配(或解碼參數)而是識別串流的資訊。因此,該已編碼音訊信號表示包含一串流識別符,且不同串流之識別基於該已編碼音訊信號資訊自身係可能的,而無需來自不同協定層級之任何資訊。舉例而言,在封包層級上提供之資訊之使用並非必需的,此係由於串流識別符資訊為音訊信號表示或包括於音訊信號表示內之組配結構的整體部分。因此,如本文中所論述之音訊解碼器可辨識不同串流之間的切換,即使解碼器之實際組配參數保持不變。
在一較佳實施例中,該音訊編碼器經組配以在該組配結構之一組配延伸結構中包括該串流識別符,其中包含該串流識別符之該組配延伸結構可由該音訊編碼器啟用及停用。因此,有可能在該音訊編碼器之側處靈活地決定是否應包括該串流識別符資訊。舉例而言,對於音訊編碼器知曉將不存在串流切換之音訊訊框,使包括該串流識別符資訊可選擇性地被省略。
在一較佳實施例中,該音訊編碼器經組配以使指定該串流識別符之一組配延伸類型識別符包括於該組配延伸結構中,以用信號表示該串流識別符在該組配延伸結構中之存在。因此,在其他組配延伸資訊存在於組配延伸結構中的情況下甚至有可能省略該串流識別符資訊。換言之,並非各組配延伸結構必需需要包含該串流識別符,此有助於節省位元。
在一較佳實施例中,該音訊編碼器經組配以提供包含該串流識別符之至少一個組配結構及不包含該串流識別符之至少一個組配結構。因此,若該音訊編碼器辨識出此串流識別符並非必需的,則該串流識別符僅包括於該組配結構中。舉例而言,該音訊編碼器僅需要將該串流識別符包括於串流之間的切換係可能所處之訊框之組配結構中。藉此可將位元率保持相當小。
在一較佳實施例中,該音訊編碼器經組配以在由音訊訊框之一第一序列表示的一第一已編碼音訊資訊之一供應與由訊框之一第二序列表示的一第二已編碼音訊資訊之一供應之間進行切換,其中在音訊訊框之該第一序列之一最後訊框的呈現之後,音訊訊框之該第二序列之一第一音訊訊框的一適當呈現需要一音訊解碼器之一重新初始化。在此狀況下,該音訊編碼器經組配以使一組配結構包括於表示音訊訊框之該第二序列之該第一訊框的一音訊訊框表示中,該組配結構包含與音訊訊框之該第二序列相關聯的一串流識別符。與音訊訊框之該第二序列相關聯的該串流識別符經選擇為不同於與音訊訊框之該第一序列相關聯的一串流識別符。因此,一音訊編碼器可在該組配結構內提供允許一音訊解碼器區分不同串流且辨識出應在何時執行重新初始化(亦被指定為「轉變」)的傳信。
在一較佳實施例中,該音訊編碼器並不提供指示自音訊訊框資訊之該第一序列至音訊訊框之該第二序列之一切換的任何其他傳信資訊,惟該串流識別符除外。因此,可將位元率保持相當小。詳言之,可避免了將除已編碼音訊資訊之外之傳信包括於不同協定層級中。此外,該音訊編碼器並不預先知曉實際上何時發生自音訊訊框之該第一序列至音訊訊框之該第二序列之切換。舉例而言,一音訊解碼器可首先自音訊訊框之該第一序列請求音訊訊框,且在該音訊解碼器辨識出某需要時(例如在可用位元率增大或減小時),該音訊解碼器(或控制音訊訊框之供應的任何其他控制裝置)可決定該音訊解碼器現在應處理來自一第二串流之音訊訊框。然而,在一些狀況下,該音訊解碼器自身可並不知曉何時(或確切何時)在來自第一序列之音訊訊框之供應與來自第二序列之音訊訊框之供應之間存在切換,且將僅能夠藉由評估包括於組配結構中的串流識別符而辨識當前所接收音訊訊框源自哪一音訊訊框序列。
在一較佳實施例中,該音訊編碼器經組配以使用不同位元率提供音訊訊框之一第一序列(例如一第一串流)及音訊訊框之一第二序列(例如一第二串流) (其中該第一串流及該第二串流可表示相同音訊內容)。此外,該音訊編碼器可經組配以將相同的解碼器組配資訊傳信至該音訊解碼器以用於解碼音訊訊框之該第一序列且用於解碼音訊訊框之該第二序列,惟不同的位元串流識別符除外。換言之,該音訊編碼器可將使用相同的解碼器參數傳信至該音訊解碼器,但該第一串流及該第二串流仍可包含不同位元率。此可例如藉由在提供該第一音訊串流及該第二音訊串流時使用不同量化解析度或不同音質模型而造成。然而,此等不同量化解析度或不同音質模型並不影響待由音訊解碼器使用之解碼參數,而是僅影響實際位元率。因此,不同位元串流識別符可為音訊解碼器區分待解碼之音訊訊框是來自第一串流抑或來自第二串流之唯一可能性,且位元串流識別符之評估亦允許該音訊解碼器辨識應在何時進行轉變(或重新初始化)。
因此,該音訊編碼器可在可發生可用位元率之改變的環境中服務,且可將傳信額外負擔保持相當小。
此外,應注意,此處所論述在音訊編碼器可視情況由本文中所描述之特徵及功能性及細節中之任一者補充。
根據本發明之另一實施例係關於一種用於基於一已編碼音訊信號表示提供一已解碼音訊信號表示之方法。該方法包含取決於一組配資訊而調整解碼參數,且該方法包含使用一當前組配資訊(例如一當前作用中組配資訊)來解碼一或多個音訊訊框。該方法亦包含比較與待解碼之一或多個訊框相關聯的一組配結構中之一組配資訊與該當前組配資訊,且該方法包含在與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊或與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊之一相關部分(例如直至並包括該串流識別符)不同於該當前組配資訊的情況下進行一轉變(例如包含該解碼之一重新初始化),以使用與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊作為一新組配來執行一解碼。該方法亦包含在比較該組配資訊時考慮包括於該組配結構中的一串流識別符資訊,使得先前在該音訊解碼中獲取之一串流識別符與由與待解碼之該一或多個訊框相關聯的該組配結構中之該串流識別符資訊表示的一串流識別符之間的一差異使得進行該轉變。此方法係基於與上文所提及之音訊解碼器相同的考慮因素。
該方法可由本文中所描述之特徵及功能性及細節中的任一者個別地或組合地補充。
根據本發明之另一實施例建立一種用於提供一已編碼音訊信號表示之方法。該方法包含使用編碼參數來編碼一音訊信號之重疊或非重疊訊框,以獲得該已編碼音訊信號表示。該方法包含提供描述該等編碼參數(或等效地,待由一音訊解碼器使用之解碼參數)之一組配結構,其中該組配結構包含一串流識別符。此方法係基於與上文所提及之音訊編碼器相同的考慮因素。
此外,應注意,此處所描述之方法可由上文關於對應音訊解碼器及音訊編碼器所描述之特徵及功能性中的任一者補充。此外,該等方法可由本文中所描述之特徵、功能性及細節中的任一者個別地或組合地補充。
根據本發明之實施例建立一種音訊串流。該音訊串流包含一音訊信號之重疊或非重疊訊框之一已編碼表示。該音訊串流亦包含描述編碼參數(或等效地,待由一音訊解碼器使用之解碼參數)之一組配結構。該組配結構包含表示一串流識別符(例如呈整數值之形式)之一串流識別符資訊。
該音訊串流係基於上文所提及之考慮因素。詳言之,包括於音訊串流之亦描述編碼參數(或等效地,待由一音訊解碼器使用之解碼參數)之組配結構中的串流識別符允許音訊解碼器區分不同串流,即使使用相同編碼參數(或解碼參數)。
在一較佳實施例中,該串流識別符資訊包括於一組配延伸結構中。在此狀況下,該組配延伸結構較佳為一組配結構之一子資料結構,其中一組配延伸結構之一存在係由該組配結構之一位元指示。此外,該串流識別符資訊為該組配延伸結構之一子資料項目,其中該串流識別符資訊之一存在係由與該串流識別符資訊相關聯的一組配延伸類型識別符指示。使用此音訊串流允許不論何時需要而靈活地包括串流識別符資訊,而使包括串流識別符資訊在不需要之狀況下可被省略(例如針對在多個串流之間不允許切換之訊框)。因此,可節省位元率。
在一較佳實施例中,該串流識別符嵌入於一音訊訊框之一表示之一子資料結構中(且可由該音訊解碼器自此子資料結構擷取)。藉由將該串流識別符嵌入於一音訊訊框之一表示之一子資料結構中,可避免使音訊解碼器必須使用來自較高協定層級之資訊。實情為,為了解碼音訊訊框,該音訊解碼器僅需要音訊訊框之表示且可決定在不同串流之間是否存在切換。
在一較佳實施例中,該串流識別符僅嵌入於包含一組配結構的一音訊訊框之一表示之一子資料結構中(且可由該音訊解碼器自包含一組配結構的一音訊訊框之一表示之一子資料結構擷取)。此想法係基於發現可僅在包含組配結構之訊框處執行串流之間的切換(而無明顯的人為效應)。因此,已發現,將該串流識別符嵌入於包含一組配結構的一音訊訊框之一表示之一子資料結構中係足夠的,而在不包含一組配結構的一音訊訊框之一表示中不包括串流識別符。
本文中所描述之音訊串流可由本文中所論述之任何特徵、功能性及細節個別地或組合地補充。詳言之,關於音訊編碼器、音訊解碼器及串流提供器所描述之此類特徵亦可經應用至音訊串流。
根據本發明之實施例建立一種用於提供一已編碼音訊信號表示之音訊串流提供器。該音訊串流提供器經組配以提供使用編碼參數而編碼的一音訊信號之暫時重疊或非重疊訊框之已編碼版本,作為該已編碼音訊信號表示之一部分。該音訊串流提供器經組配以提供描述該等編碼參數(或等效地,待由一音訊解碼器使用之解碼參數)之一組配結構,作為該已編碼音訊信號表示之一部分,其中該組配結構包含一串流識別符。此音訊串流提供器係基於與上文所描述之音訊編碼器以及與上文所描述之音訊解碼器相同的考慮因素。
在一較佳實施例中,該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該串流識別符包括於該組配結構之一組配延伸結構中,其中包含該串流識別符的該組配延伸結構可由該組配結構中之一或多個位元啟用及停用。此實施例係基於與上文關於音訊編碼器以及關於音訊解碼器所論述之構想相同的想法。換言之,該音訊串流提供器提供對應於由音訊編碼器提供之音訊串流的音訊串流(即使該音訊串流提供器可經組配以在供應例如由並行地操作之多個音訊編碼器提供或自儲存媒體提供的不同串流之間進行切換)。
在該較佳實施例中,該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該組配延伸結構包含指定該串流識別符之一組配延伸類型識別符,以用信號表示該串流識別符在該組配延伸結構中之存在。此實施例係基於與上文關於音訊編碼器及關於音訊串流所提及之考慮因素相同的考慮因素。
在一較佳實施例中,該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該已編碼音訊信號表示包含至少一個包含該串流識別符的組配結構及至少一個不包含該串流識別符的組配結構。如上文所提及,沒有必要使該串流識別符包括於各組配結構中。實情為,可存在其中應包括串流識別符的組配結構之可撓性調整。通常,將在串流之間存在切換(或預料到或允許串流之間的切換)的此類音訊訊框之組配結構中包括串流識別符。換言之,包含相同組配結構(惟不同串流識別符除外)之不同串流之間的切換將僅由串流提供器在串流識別符存在之訊框處執行。因此,音訊解碼器(自音訊串流提供器接收已編碼音訊表示)具有辨識不同串流之間的切換之可能性,即使解碼參數(其係由組配結構傳信)實質上相同或甚至完全相同。
在一較佳實施例中,該音訊串流提供器經組配以在由音訊訊框之一第一序列表示的一第一已編碼音訊資訊之一第一部分之一供應與由音訊訊框之一第二序列表示的該已編碼音訊資訊之一第二部分之一供應之間進行切換,其中在音訊訊框之該第一序列之一最後訊框的呈現之後,音訊訊框之該第二序列之一第一音訊訊框的適當呈現需要一音訊解碼器之一重新初始化。該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得表示音訊訊框之該第二序列之該第一訊框的一音訊訊框表示包括一組配結構,該組配結構包含與音訊訊框之該第二序列相關聯的一串流識別符,其中與音訊訊框之該第二序列相關聯的該串流識別符不同於與音訊訊框之該第一序列相關聯的一串流識別符。換言之,該音訊串流提供器在具有關聯之不同串流識別符之兩個音訊串流(音訊訊框序列)之間提供切換。因此,一音訊解碼器將通常知曉與音訊訊框之該第一序列相關聯的該串流識別符(例如藉由評估與音訊訊框之該第一序列相關聯的一組配結構),且當該音訊解碼器接收音訊訊框之該第二序列之該第一訊框時,該音訊解碼器將能夠評估包含與音訊訊框之該第二序列相關聯的該串流識別符之該組配結構,且將借助於該等串流識別符(其針對不同串流係不同的)之該比較而能夠辨識自該第一串流至該第二串流之一切換。因此,該音訊串流提供器提供來自第一串流之音訊訊框且接著切換至來自第二串流之音訊訊框之供應,且在切換之後提供的第二音訊串流之第一訊框之組配結構內提供適當傳信資訊(即串流識別符)。因此,傳信在不同音訊串流之間之切換而無需額外傳信。
在一較佳實施例中,該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該已編碼音訊信號表示不提供指示自音訊訊框之該第一序列至音訊訊框之該第二序列之該切換的任何其他傳信資訊,惟該串流識別符除外。因此,可達成位元率之相當大節省。協定複雜性亦保持為小的,此係由於沒有必要包括不同協定層級處之任何資訊且在音訊解碼器之側處沒有必要自不同協定層級擷取此類資訊。
在一較佳實施例中,該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得音訊訊框之該第一序列(例如一第一串流)及音訊訊框之該第二序列(例如一第二串流)係使用不同位元率而編碼。此外,該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該已編碼音訊信號表示將相同的解碼器組配資訊(或解碼器參數或解碼參數)傳信至一音訊解碼器以用於解碼音訊訊框之該第一序列且用於解碼音訊訊框之該第二序列,惟不同的位元串流識別符除外。因此,該音訊串流提供器針對可例如僅在位元串流識別符方面不同的不同串流(第一串流及第二串流)提供極相似的組配資訊。在此情境下,使用位元串流識別符特別有用,此係由於其允許以最小傳信額外負擔可靠地區分不同位元串流。
在一較佳實施例中,該音訊串流提供器經組配以在音訊訊框之一第一序列(例如一第一串流)至一音訊解碼器之一供應與音訊訊框之一第二序列(例如一第二串流)至該音訊解碼器之一供應之間進行切換,其中音訊訊框之該第一序列與音訊訊框之該第二序列係使用不同位元率而編碼。該音訊串流提供器經組配以在該音訊訊框表示(例如一即刻播出訊框IPF)包含一隨機存取資訊(例如一音訊預載延伸酬載「AudioPreRoll()」)之一音訊訊框處在該供應音訊訊框之該第一序列與該供應音訊訊框之該第二序列之間選擇性地進行切換,同時避免在並不包含一隨機存取資訊之音訊訊框處在序列之間進行切換。該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得在自音訊訊框之該第一序列切換至音訊訊框之該第二序列時提供的一串流識別符包括於一音訊訊框之一組配結構中。舉例而言,藉由音訊串流提供器之此組配會確保如下情形:僅在音訊訊框之第二序列之第一訊框包含具有串流識別符且亦具有隨機存取資訊的組配結構時才在供應來自音訊訊框之第一序列之訊框與供應音訊訊框之第二序列之訊框之間存在切換。因此,音訊解碼器可偵測不同音訊串流之間的切換,且因此可辨識出應評估隨機存取資訊(而在不同音訊串流之間不存在切換時及在音訊解碼器具有單個串流之音訊訊框之相連序列被呈現之假定時通常不評估隨機存取資訊)。
因此,可藉由此概念來達成在不同音訊串流之間切換時無人為效應的良好音訊品質。
在另一實施例中,該音訊串流提供器經組配以獲得使用不同位元率而編碼的音訊訊框之多個並行序列,且該音訊串流提供器經組配以在將來自該等並行序列中的不同序列之訊框至一音訊解碼器之一供應之間進行切換,其中該音訊串流提供器經組配以使用包括於一第一音訊訊框表示之該組配結構中的在一切換之後提供的該串流識別符而將一或多個訊框與該等序列中之哪一者相關聯傳信至一音訊解碼器。因此,該音訊解碼器可以小額外負擔且不使用來自其他協定層之資訊的情況下辨識不同串流之間的轉變。
應注意,本文中所論述之音訊串流提供器可由本文中所描述之特徵、功能性及細節中之任一者個別地或組合地補充。
根據本發明之另一實施例建立一種用於提供一已編碼音訊信號表示之方法。該方法包含提供使用編碼參數而編碼的一音訊信號之重疊或非重疊訊框之已編碼版本,作為該已編碼音訊信號表示之一部分。該方法包含提供描述該等編碼參數(或等效地,待由一音訊解碼器使用之解碼參數)之一組配結構,作為該已編碼音訊信號表示之一部分,其中該組配結構包含一串流識別符。
此方法係基於與上文所論述之串流提供器相同的考慮因素。該方法可由本文中例如關於串流提供器、以及關於音訊編碼器、音訊解碼器或音訊串流所描述的特徵、功能性及細節中之任何其他特徵、功能性及細節補充。
根據本發明之另一實施例建立一種用於執行本文所描述之該等方法之電腦程式。
較佳實施例之詳細說明 1.根據圖1之音訊解碼器 圖1展示根據本發明之(簡單)實施例的音訊解碼器之示意方塊圖。
該音訊解碼器100接收已編碼音訊信號表示110且基於其而提供已解碼音訊信號表示112。舉例而言,已編碼音訊信號表示110可為包含統一話語及音訊寫碼(USAC)訊框序列之音訊串流。然而,該已編碼音訊信號表示可採取不同形式,且可例如為由已知音訊寫碼標準中之任一者之位元串流語法定義的音訊表示。該已編碼音訊信號表示可例如包含組配資訊110,該組配資訊可例如包括於組配結構中且可例如包含串流識別符。串流識別符可例如包括於組配資訊中或包括於組配結構中。組配資訊或組配結構可例如與待解碼之一或多個訊框相關聯,且可例如描述待由音訊解碼器使用之解碼參數。
此處,解碼器100可例如包含解碼器核心130,該解碼器核心可經組配以使用當前組配資訊來解碼一或多個音訊訊框(其中該當前組配資訊可例如定義解碼參數)。音訊解碼器亦經組配以取決於組配資訊110a而調整解碼參數。
舉例而言,音訊解碼器經組配以將與待解碼之一或多個訊框相關聯的組配結構中之組配資訊與當前組配資訊(例如用於一或多個先前已解碼訊框之解碼的組配資訊)進行比較。此外,音訊解碼器可經組配以在與待解碼之一或多個訊框相關聯的組配結構中之組配資訊或與待解碼之一或多個訊框相關聯的組配結構中之組配資訊之相關部分不同於當前組配資訊的情況下進行轉變以使用與待解碼之一或多個訊框相關聯的組配結構中之組配資訊作為新組配資訊來執行解碼。當進行「轉變」時,音訊解碼器可例如使用隨機存取資訊來重新初始化解碼器核心130,該隨機存取資訊意欲描述應用於在該「轉變」之後適當地解碼音訊訊框(或第一音訊訊框)之解碼器核心之狀態。
詳言之,音訊解碼器經組配以在比較組配資訊時(亦即,在比較與待解碼之一或多個訊框相關聯的組配結構中之組配資訊與當前組配資訊時)考慮包括於組配結構中(亦即在組配資訊內)之串流識別符,使得由音訊解碼器先前獲取之串流識別符與由與待解碼之一或多個訊框相關聯的組配結構中之串流識別符資訊表示之串流識別符之間的差異使得進行轉變。
換言之,音訊解碼器可例如包含用於當前組配(或用於當前組配資訊)之記憶體,該記憶體可以140指定。音訊解碼器100亦可包含比較器(或用於執行比較之任何其他構件) 150,該比較器可比較當前組配資訊之包括串流識別符的至少相關部分與關聯於待解碼之下一(音訊)訊框的組配資訊之包括串流識別符之對應部分。該相關部分可例如為直至並包括串流識別符的部分,其中在一些實施例中可忽略在表示組配資訊之位元串流中在串流識別符之後的組配資訊。
若可由比較器150執行之此比較指示當前組配資訊(或其相關部分)與與待解碼之下一(音訊)訊框相關聯的組配資訊(或其相關部分)之間的差異,則可辨識出應進行「轉變」。
進行轉變可例如包含重新初始化解碼器核心,即使由與待解碼之下一(音訊)訊框相關聯的組配資訊所描述之解碼參數相同於由當前組配資訊所描述之解碼器組配(解碼參數) (其中與待解碼之下一音訊訊框相關聯的組配資訊與當前組配資訊之不同之處僅在於串流識別符不同)。另一方面,若例如藉由定義不同解碼參數使與待解碼之下一音訊訊框相關聯的組配資訊與當前組配資訊之不同之處更多,則音訊解碼器100亦將自然地進行「轉變」,此通常意謂重新初始化解碼器核心130且改變解碼參數。
總之,根據圖1之音訊解碼器100藉由評估包括於音訊訊框之組配結構中的串流識別符而能夠辨識不同音訊串流之訊框之間的轉變,即使待由解碼器核心130使用之解碼參數保持不變,此消除了對音訊串流之間的轉變之專用傳信及/或重新初始化解碼器核心之條件之專用傳信之需要。因此,解碼器100可適當地解碼音訊訊框,即使存在自一串流至另一串流之轉變,此係因為音訊解碼器可辨識此轉變且例如藉由重新初始化音訊解碼器且用新組配參數重新組配該音訊解碼器(必要時)來適當地處置其。
應注意,根據圖1之音訊解碼器100可視情況由本文中所描述之特徵及功能性及細節中之任一者個別地或組合地補充。 2.根據圖2之音訊解碼器
圖2展示根據本發明之實施例的音訊解碼器200之示意方塊圖。
該音訊解碼器200經組配以接收已編碼音訊信號表示210且基於其而提供已解碼音訊信號表示212。舉例而言,已編碼音訊信號表示210可為包含統一話語及音訊寫碼(USAC)訊框序列之音訊串流。然而,使用不同音訊寫碼概念而編碼之音訊訊框序列亦可經輸入至音訊解碼器200中。舉例而言,音訊解碼器可接收第一串流之音訊訊框220且可隨後接收第二串流之音訊訊框222 (作為下一音訊訊框)。該等音訊訊框220、222可例如由音訊串流提供器提供。音訊訊框220可例如包含音訊信號之已編碼表示220a,其例如呈已編碼頻譜值及已編碼比例因數之形式及/或呈已編碼頻譜值及已編碼線性預測寫碼係數(TXC)之形式及/或呈已編碼激勵及已編碼線性預測寫碼係數之形式。音訊訊框222可例如亦包含音訊信號之已編碼表示222a,該音訊信號之已編碼表示之形式可與包括於訊框220中的音訊信號之已編碼表示220a之形式相同。然而,另外,訊框222亦可包含隨機存取資訊222b,該隨機存取資訊又可包含組配結構222c及用於將(例如解碼器核心之)處理鏈之狀態帶入至所要狀態之資訊222d。此資訊222d可例如經指定為「AudioPreRoll」。
音訊解碼器200可例如自已編碼音訊信號表示210擷取亦可被認為係組配資訊的組配結構222c。該組配結構222c可例如包含指示組配延伸結構226是否作為組配結構之部分而存在的資訊或旗標(或位元)。此資訊或旗標或位元係以224a指定。
組配延伸結構226可例如包含指示串流識別符是否存在之資訊或旗標或位元或識別符。該後者資訊、旗標、位元或識別符係以228指定。若該資訊或旗標或位元或識別符228指示存在串流識別符,則亦存在串流識別符230,該串流識別符通常可為組配延伸結構226之部分。
此外,組配延伸結構可包含是否存在其他資訊(比如適當位元或旗標或識別符)之資訊,且亦可包含其他資訊(若適用)。
該音訊解碼器100可例如包含記憶體240,該記憶體可儲存當前組配資訊(例如用於解碼先前訊框及自先前訊框或前一訊框之組配結構擷取的組配資訊)。該音訊解碼器200亦包含比較器或比較件250,該比較器或比較件經組配以比較與待解碼之音訊訊框相關聯的組配資訊與儲存於記憶體240中之當前組配資訊。舉例而言,該比較器或比較件250可經組配以比較待解碼之音訊訊框之組配結構222c之組配資訊與儲存於記憶體中之直至並包括串流識別符之當前組配資訊。換言之,可將直至包括串流識別符的組配結構222c之任何資訊項目與來自記憶體240之當前組配資訊進行比較,以判定訊框222中之組配資訊(直至並包括串流識別符)是否與自先前音訊訊框中之一者擷取的當前組配資訊相同。在此比較中,自然地將檢查組配結構222c實際上是否包含組配延伸結構226及串流識別符230。若組配延伸結構226並不存在,則自然地在該比較中並不考慮其。又,若串流識別符230並不存在(例如因為旗標228指示其不包括於訊框222中),則自然地在該比較中並不評估其。又,在組配結構222c中之串流識別符230之後的任何組配資訊在該比較中將通常被忽略,此係因為此類組配資訊之重要性係次要的且在組配結構222c中之串流識別符230之後的此類組配資訊之改變並不傳信不同串流之間的切換,而是可能甚至發生於單個串流內。
總之,比較件250通常比較直至並包括待解碼之音訊訊框之串流識別符的組配資訊(但較佳省略在組配延伸結構中配置於串流識別符之後的組配)與當前組配資訊(自先前解碼之音訊訊框獲得。因此,若在比較中發現組配資訊之差異,則比較件250偵測新串流(或子串流)。因此,比較件係用以控制自第一串流(或子串流)至第二串流(或子串流)之轉變。
舉例而言,實行此轉變可包含清除第一串流之最後訊框之解碼、重新組配、將處理鏈之狀態初始化至所要狀態,及在例如第一串流之最後訊框之時域表示與第二串流之第一訊框之時域表示之間執行平滑轉換。
音訊解碼器200亦包含解碼器核心216,該解碼器核心可經組配以使用第一組配(其可由當前組配資訊所描述)來解碼第一串流之訊框(或第一訊框序列之訊框)。此外,解碼器核心216可經組配以使用第二組配(例如使用新組配,其由待解碼之音訊訊框之組配資訊222c所描述)來解碼第二串流或第二訊框序列。舉例而言,可在比較件250發現待解碼之音訊訊框222之組配資訊222c之相當大部分與記憶體240中之當前組配資訊之間的差異時觸發解碼器核心之重新初始化。
舉例而言,可在第一串流之最後訊框之解碼與第二串流之第一訊框之解碼之間使用解碼器之重新初始化。替代地,舉例而言,若以軟體(至少部分地)實施解碼器,則可使用解碼器之「新執行個體」。此外,當自第一串流之解碼切換至第二串流之解碼(「轉變」)時,可使用一些旁側資訊將解碼器核心之處理鏈之狀態帶入至所要狀態。舉例而言,可將算術解碼之上下文狀態帶入至所要狀態,或可將時間離散濾波器之內容帶入至所要狀態。此可使用亦被指定為「音訊預載」APR之專用資訊來完成。將處理鏈之狀態帶入至所要狀態係重要的,此係由於由音訊解碼器處理(解碼)之第二串流之第一訊框可並非為第二音訊串流之實際第一訊框。實情為,由音訊解碼器處理之第二音訊串流之第一訊框可為在音訊串流提供器自供應來自第一音訊串流之訊框切換至供應來自第二音訊串流之訊框時在第二音訊串流期間的某一訊框。因此,由音訊解碼器處理之「第二音訊串流之第一訊框」可依賴於解碼鏈之狀態之特定設定,其通常將由第二音訊串流之先前訊框(在待解碼之音訊訊框之前,該音訊訊框為在轉變之後由音訊解碼器處置的第二音訊串流之第一音訊訊框)之解碼造成。因此,當自第一音訊串流之音訊訊框之解碼切換至第二音訊串流之音訊訊框之解碼時,通常將由第二音訊串流之先前訊框之解碼招致的音訊解碼器之狀態之遺漏設定現在藉由使用「音訊預載」資訊來進行,該音訊預載資訊定義音訊解碼之狀態之適當設定。
如在圖式元件符號270處可看到,第一音訊串流之最後訊框之解碼提供已解碼部分272 (亦被指定為「有用部分」)。視情況,第一音訊串流之最後訊框之解碼可提供更長的已解碼部分,其被部分捨棄。此外,當解碼第二音訊串流之第一訊框時,供應「預載部分」274,在此期間解碼器狀態經初始化以供適當地解碼第二音訊串流之第一訊框。此外,解碼器核心260亦提供由解碼器200處置之第二音訊串流之第一訊框的有用部分276,其中該第二音訊串流之第一訊框之有用部分276暫時與第一串流之最後訊框之有用部分272重疊。因此,可視情況在第一串流之最後訊框之有用部分272的末端與第二串流之第一訊框之有用部分的開端之間執行平滑轉換。因此,可導出已解碼輸出信號212,其中在(由音訊解碼器200處理之)第一串流之最後訊框與(由音訊解碼器200處理之)第二串流之第一訊框之間提供無人為效應轉變。
概述言之,音訊解碼器200可辨識出音訊編碼器或音訊串流提供器何時自供應第一串流之音訊訊框切換至供應第二串流之音訊訊框。出於此目的,音訊解碼器評估組配資訊222c (亦被指定為組配結構)且執行與儲存於記憶體240中之當前組配資訊的比較。當辨識出待解碼之音訊訊框相比於先前已解碼音訊訊框而屬於不同的音訊串流時,執行解碼器核心之重新初始化,其通常包括藉由評估一些「音訊預載」資訊而將解碼器核心之處理鏈之狀態帶入至所要狀態。因此,音訊解碼器可適當地處置以下情形:音訊編碼器或音訊串流提供器提供來自新串流(第二音訊串流)之音訊訊框,而不再另行通知(惟包括串流識別符230的組配結構222c之供應除外)。
應注意,此處所描述之音訊解碼器200可由本文中所描述之特徵及功能性及細節中之任一者個別地或組合地補充。 3. 根據圖3之音訊編碼器
圖3展示根據本發明之實施例的音訊編碼器之示意方塊圖。
該音訊編碼器300接收輸入音訊信號310 (例如呈時域表示之形式)且基於其而提供已編碼音訊信號表示312。音訊編碼器300包含編碼器核心320,該編碼器核心經組配以使用編碼參數來編碼輸入音訊信號310之重疊或非重疊訊框,以獲得已編碼音訊信號表示。音訊編碼器320可例如包含時域對頻譜域轉換及頻譜域表示之編碼。該處理可例如以逐訊框方式來執行。
此外,該音訊編碼器可例如包含組配結構供應件330,該組配結構供應件經組配以提供描述編碼參數(或等效地,待由音訊解碼器使用之解碼參數)之組配結構332。該組配結構332可例如對應於組配結構222c。詳言之,組配結構332可包含編碼參數(例如呈已編碼形式),或等效地包含描述在解碼已編碼音訊信號表示312時待由解碼器(或解碼器核心)使用的設定之解碼參數(例如呈已編碼形式)。將在下文描述組配結構332之實例。此外,組配結構332包含可對應於串流識別符230之串流識別符。舉例而言,串流識別符可指定音訊串流(例如使用特定編碼器設定以相連方式編碼的音訊內容之相連片段)。舉例而言,由組配結構供應件330提供之串流識別符可經選擇使得在此之間應有可能在無人為效應的情況下且在並未向音訊解碼器明確告知切換的情況下進行切換的所有彼等音訊串流應攜載不同串流識別符。然而,在一些狀況下,具有關聯相同編碼參數(或等效地,待由音訊解碼器使用之解碼參數)之此類串流包含不同串流識別符可能為足夠的。換言之,可針對其他編碼參數或解碼參數相同之此類串流僅需要不同串流識別符。
因此,編碼器控制件340可例如控制編碼器核心320及組配結構供應件330兩者。編碼器控制件340可例如決定待由編碼器核心320使用之編碼參數(其可例如與待由音訊解碼器使用之解碼參數至少部分地對應),且亦可向組配結構供應件330告知待包括於組配結構332中的該等編碼參數/解碼參數。因此,已編碼音訊表示312包含已編碼音訊內容且亦包含組配結構332。因此,音訊解碼器(例如音訊解碼器100或音訊解碼器200)可即刻辨識出何時提供使用不同編碼參數而編碼的不同音訊串流(即使並非所有編碼參數皆由包括於組配結構中的解碼參數反映)。
關於此問題,應注意,通常沒有必要將所有編碼參數皆傳信至音訊解碼器。舉例而言,僅有必要將影響解碼演算法之彼等編碼參數傳信至音訊解碼器。發送至音訊解碼器以便判定音訊解碼器之設定的編碼參數亦被指定為解碼參數。另一方面,一些重要編碼參數通常未經傳信至音訊解碼器,而是隱含地反映於已編碼音訊信號表示中。舉例而言,所要位元率可為重要編碼參數且可決定音訊編碼器量化頻譜值之粗略程度及/或音訊將多少頻譜值量化至小值或甚至量化至零值。然而,對於音訊解碼器,查看編碼之結果係足夠的,然而其將無需知曉編碼器如何將位元率保持為相當小的特定策略。而且,在編碼器之側處可存在用以達成足夠小位元率之不同途徑,此取決於音訊內容之類型且亦取決於實際所要位元率。此等參數可被認為是「編碼參數」,但其將未經反映於「解碼參數」之集合中(且將未包括於音訊訊框之已編碼表示中),其中解碼參數(及併入至已編碼音訊表示中之此等編碼參數)通常僅描述解碼器應使用哪一設定,亦即,解碼器應如何處置由編碼器提供之已編碼資訊。
因此,實際上可能為以下狀況:可包括於組配結構332中之解碼參數可能相同,即使編碼器核心使用不同編碼參數(例如在目標位元率方面,或在影響目標位元率之參數方面,比如所涉及之量化解析度或音質模型)。
換言之,音訊編碼器可例如能夠使用不同編碼參數來編碼給定音訊內容,即使待由解碼器使用(以便處理及解碼音訊內容之已編碼表示)之解碼參數可能相同。
在此類狀況下,音訊編碼器可在組配結構332內提供不同串流識別符,使得音訊解碼器仍可區分音訊內容之此類不同已編碼表示。
此外,應注意,根據圖3之音訊編碼器300可視情況由本文中所描述之特徵、功能性及細節中之任一者補充。 4. 根據圖4之音訊串流提供器
圖4展示根據本發明之實施例的音訊串流提供器之示意方塊圖。
該音訊串流提供器400經組配以提供已編碼音訊信號表示412。音訊串流提供器經組配以提供使用編碼參數而編碼的音訊信號之(暫時)重疊或非重疊訊框之已編碼版本422,而作為已編碼音訊信號表示412之部分。
此外,音訊串流提供器經組配以提供組配結構424,該組配結構描述作為已編碼音訊信號表示之部分的編碼參數(或等效地,待由音訊解碼器使用之解碼參數),其中該組配結構424包含串流識別符。
舉例而言,音訊串流提供器可包含音訊信號之重疊或非重疊訊框之已編碼版本的供應件(或提供器)。此外,音訊串流提供器亦可包含用於提供組配結構424之組配結構供應件或組配結構提供器423。
因此,音訊串流提供器可提供該音訊串流提供器可例如儲存於記憶體中或自音訊編碼器接收的不同音訊串流之部分,而作為已編碼音訊信號表示412之部分。當提供第一音訊串流之一部分且接著切換至供應第二音訊串流之一部分時,組配結構424可與第二音訊串流之在自第一音訊串流切換至第二音訊串流之後提供的第一音訊訊框相關聯。組配結構424可例如為由音訊串流提供器自音訊編碼器接收或儲存於音訊串流提供器之記憶體中的各別音訊串流之部分。因此,音訊串流提供器可例如儲存第一音訊串流之音訊訊框之相連序列且亦儲存第二音訊串流之音訊訊框之相連序列。第一音訊串流之訊框中之至少一些及第二音訊串流之訊框中之一些可具有描述待由音訊解碼器使用之解碼參數的關聯各別組配結構。該等組配結構亦可包含各別串流識別符,例如識別音訊串流的整數個串流識別符。舉例而言,音訊串流提供器可經組配以提供第一音訊訊框之訊框1至n-1 (其中1至n-1可為時間索引)及第二音訊串流之訊框n至n+x (其中n至n+x可為時間索引)而作為已編碼音訊信號表示412之一部分,其中第二音訊串流之訊框1至n-1可並未被提供為經導引至特定音訊解碼器或導引至音訊解碼器之特定群組的已編碼音訊信號表示412之部分。第一音訊串流及第二音訊串流可例如表示以不同位元率編碼之相同內容。因此,音訊內容之訊框1至n-1係由以第一位元率編碼的第一音訊串流在經導引至某一裝置或裝置之群組的已編碼音訊信號表示412中表示,且音訊內容之訊框n至n+x係由以不同於第一位元率之第二位元率編碼的第二音訊串流之訊框n至n+x表示。
舉例而言,音訊串流提供器400或一些外部控制件可確保包括於已編碼音訊信號表示412中的第二音訊串流之第一訊框n包含組配結構。換言之,音訊串流提供器400或一些外部控制件可例如確保在供應來自第一音訊串流之音訊訊框與供應來自第二音訊串流之音訊訊框之間進行切換僅發生於「適當」訊框處,該適當訊框包含組配結構且較佳亦包含用於初始化音訊解碼器之一些資訊(比如音訊預載)。
因此,音訊串流提供器可例如提供以第一位元率編碼的音訊內容之一些部分(例如藉由提供第一音訊串流之訊框1至n-1),且提供使用第二位元率而編碼的音訊串流之其他部分(例如藉由提供第二音訊串流之音訊訊框n至n+x)。可能地,第一音訊串流及第二音訊串流之組配結構將相同,惟串流識別符不同除外。此係歸因於以下事實:反映於組配結構424中之解碼參數未必需要反映用於編碼第一音訊串流及用於編碼第二音訊串流之不同編碼參數(或所有編碼參數),使得實際上亦包括於該組配結構中的(僅)串流識別符允許音訊解碼器判定是否應進行「轉變」(例如藉由重新初始化解碼器核心)。
在一些實施例中,是提供來自第一音訊串流之音訊訊框抑或來自第二音訊串流之音訊訊框之決策可由音訊串流提供器作出(例如基於得到之網路條件之知識,例如音訊串流提供器與音訊解碼器之間的網路之網路負荷或可用網路位元率)。然而,替代地,音訊解碼器或中間裝置(例如網路管理裝置)可決定應使用哪一音訊串流。
然而,應注意,音訊解碼器或至少音訊解碼器核心可能並未由音訊串流提供器及/或由中間網路明確地告知已發生串流之改變。換言之,音訊解碼器並未接收到任何額外資訊,惟組配結構424將訊框n至n+x係來自第二音訊串流,而訊框1至n-1係來自第一音訊串流傳信至音訊解碼器除外。
總之,音訊串流提供器可將音訊內容之已編碼表示以已編碼音訊信號表示之形式靈活地提供至音訊解碼器。舉例而言,音訊串流提供器可在供應來自第一音訊串流之已編碼訊框與來自第二音訊串流之經寫碼訊框之間靈活地切換,其中在音訊串流之間的切換係藉由包括於組配結構424中的為已編碼音訊信號表示412之部分的串流識別符之改變而傳信。
此處應注意,音訊串流提供器400可視情況由本文中所描述之特徵、功能性及細節中之任一者補充。
在下文中,將參看圖5描述音訊串流提供器400之功能性之實例,圖5展示根據本發明之實施例的音訊串流提供器之示意方塊圖。
圖5中所展示之音訊串流提供器係以500指定且可對應於根據圖4之音訊串流提供器400。該音訊串流提供器500經組配以提供可對應於已編碼音訊信號表示412之已編碼音訊信號表示512。
詳言之,音訊串流提供器可經組配以在供應來自第一音訊串流之訊框與來自第二音訊串流之訊框之間進行切換。舉例而言,音訊串流提供器500可經組配以僅在所謂的「獨立播出訊框」(亦被指定為「IPF」)處在供應來自第一音訊串流之訊框與來自第二音訊串流之訊框之間進行切換。
音訊串流提供器500可將第一音訊串流520及第二音訊串流530儲存於記憶體中或可自音訊編碼器接收第一音訊串流520及第二音訊串流530。第一音訊串流可例如以第一位元率進行編碼且可在(例如即刻播出訊框之)組配結構中包含第一串流識別符。第二音訊串流530可例如以第二位元率進行編碼且可在(例如即刻播出訊框之)組配結構中包含第二串流識別符。然而,第一音訊串流及第二音訊串流可例如表示相同音訊內容。然而,第一音訊串流及第二音訊串流亦可表示不同音訊內容。
舉例而言,第一音訊串流520可包含處於被指示為n1
、n2
、n3
及n4
之訊框處的獨立播出訊框。舉例而言,不為獨立播出訊框的一或多個「正常」音訊訊框可經配置於兩個鄰近獨立播出訊框之間。然而,在一些情形下,獨立播出訊框亦可為鄰近的。
相似地,第二音訊串流530亦包含處於訊框位置n1
、n2
、n3
及n4
之獨立播出訊框。
應注意,兩個串流520、530中之獨立播出訊框之位置可視情況相同,然而亦可不同。為簡單起見,此處假定在兩個串流中,獨立播出訊框之訊框位置相同。
然而,原則上僅重要的是,在切換之後的第一訊框為獨立播出訊框。舉例而言,當自供應來自第一音訊串流之音訊訊框切換至供應來自第二音訊串流之音訊訊框時,音訊串流提供器500應確保自第二音訊串流提供之訊框之部分的第一訊框為獨立播出訊框。
將參考圖式元件符號550處所展示之已編碼音訊信號表示來描述實例。如可看到,已編碼音訊信號表示512在其開端包含部分552,該部分包含第一音訊串流之一或多個訊框。然而,在供應第一音訊串流之具有索引n1
-1的音訊訊框之後,音訊串流提供器500可決定(基於內部決策,或基於在外部接收之一些控制資訊)切換至第二音訊串流。因此,將第二音訊串流之音訊訊框之部分554提供於已編碼音訊信號表示512內。舉例而言,將第二音訊串流之具有訊框索引n1
至n2
-1的訊框提供於已編碼音訊信號表示512內之部分554中。應注意,部分554之第一訊框為獨立播出訊框,其處於第二音訊串流530內之訊框索引n1
處。然而,當具有訊框索引n2
-1之訊框已提供於已編碼音訊信號表示512內時,音訊串流提供器可再次決定返回至供應來自第一音訊串流520之音訊訊框。因此,在具有訊框索引n2
-1之音訊訊框(其係基於第二音訊串流530)之後(或直接在具有訊框索引n2
-1之音訊訊框之後),可將具有獲自第一音訊串流520的訊框索引n2
之訊框提供於已編碼音訊信號表示內。應注意,具有索引n2
之訊框亦為獨立播出訊框。因此,獲取來自第一音訊串流之部分,其自具有索引n2
之訊框開始且在訊框索引n4
-1處結束。
總之,已編碼音訊信號表示512為一或多個訊框之部分之串連,其中訊框之一些部分獲自第一音訊串流520且其中訊框之一些部分獲自第二音訊串流530。各部分之第一訊框較佳為獨立播出訊框,其較佳藉由音訊串流提供器之操作而確保。
此獨立播出訊框較佳包含具有串流識別符之組配結構,其中可例如在組配延伸結構中含有該串流識別符。舉例而言,第一串流及第二串流之組配資訊可為相同的,惟串流識別符除外(且可能地,惟在組配延伸結構內在串流識別符之後所含有的組配資訊除外)。
舉例而言,獨立播出訊框可對應於如上文關於音訊解碼器200所解釋之訊框220。
進一步推斷出,音訊串流提供器500可能夠存取多個音訊串流(例如第一音訊串流520及第二音訊串流530且視情況存取另外音訊串流),且可自此兩個或多於兩個音訊串流選擇供包括於已編碼音訊信號表示512中之訊框之部分,該已編碼音訊信號表示經轉遞(例如經由通訊網路)至音訊解碼器。當選擇供包括於已編碼音訊信號表示512中之訊框之部分時,音訊串流提供器可確保在不解碼該音訊串流之任何先前訊框的的情況下各部分之第一訊框為包含足夠資訊以供(無人為效應地)呈現之獨立播出訊框。此外,音訊串流提供器提供已編碼音訊信號表示,其方式為使得對於接收已編碼音訊信號表示512之音訊解碼器,自組配結構之相關部分內之差異可辨識在來自不同串流之音訊訊框之部分之間的切換。對於一些轉變,組配結構關於解碼器組配參數可不同,但對於一或多個其他轉變,組配結構可僅在串流識別符方面不同,而其他解碼組配參數可相同。
因此,音訊解碼器可辨識不同音訊串流之間的切換且不論何時適當即執行重新初始化(「轉變」)。 5. 根據圖6之音訊訊框
圖6展示音訊訊框之表示,該音訊訊框允許隨機存取且包含組配延伸部分中之具有串流識別符之組配部分。
舉例而言,圖6展示可接管參看圖2所描述之音訊訊框222之作用的音訊訊框之實例。舉例而言,音訊訊框可為「USAC訊框」。圖6之音訊訊框可被認為是「串流存取點」或「中間播出訊框」。
該訊框可例如遵循統一話語及音訊寫碼標準之語法慣例(包括可得到之修正案),但亦可適應於其他或較新音訊標準之位元串流語法。
舉例而言,USAC訊框600可包含USAC獨立性旗標610。此外,USAC訊框可包含被指定為「USAC ExtElement」之延伸元素。延伸元素620可為具有組配資訊且具有預載資料之延伸元素。
視情況,可存在指示另外資料之存在的旗標「USAC ExtElementPresent」。舉例而言,較佳的是,此旗標在IPF (例如串流存取點)之狀況下為1。然而,此旗標可被認為是選用的。
此外,視情況可存在旗標「USAC ExtElementUseDefaultLength」,其可用以編碼是否應使用延伸元素之預設長度或是否編碼延伸元素之該長度。舉例而言,較佳的是(但非必需地)此旗標在IPF之狀況下具有為零之值。
此外,存在亦被指定為「USACExtElementSegmentData」之延伸元素片段資料。此等延伸元素片段資料包含音訊預載資訊,音訊預載資訊在USAC標準之修正案中亦被指定為「AudioPreRoll()」。音訊預載視情況包含組配長度資訊「configLen」及組配資訊「Config()」,其中該組配資訊可相同於「USAC組配資訊」,該USAC組配資訊亦被指定為「UsacConfig()」。較佳地但非必需地,若組配資訊存在,則「configLen」應採取大於零之值。舉例而言,「config Len」之零值可指示組配資訊並不存在。組配資訊可包含一些基本組配資訊,比如關於取樣頻率之資訊及關於SBR訊框長度之資訊及關於頻道組配及其他(選用)解碼器組配項目之數目之資訊。其他解碼器組配項目可例如包含在USAC標準中在「UsacDecoderConfig()」語法元素之定義中所描述的一或多個或甚至所有的組配項目。
此外,組配資訊包含作為子資料結構的組配延伸結構。組配延伸結構可例如遵循語法元素「UsacConfigExtension()」之語法。舉例而言,組配延伸結構可包含關於組配延伸部分「numConfigExtensions」之數目之資訊。若存在屬於類型ID_Config_Ext_Stream_ID之組配延伸部分(此通常為根據本發明之實施例中之狀況),則串流識別符係由位元串流語法元素「streamId()」表示,該streamId()可例如由16位元值表示。
總之,包括於延伸元素中之USAC訊框中的組配結構包含用於設定解碼器參數之一些組配資訊,且進一步包含可被表示為整數個(例如16位元)之串流識別符而作為組配延伸部分。
音訊預載資訊視情況包含另外資訊,比如指示是否應用平滑轉換之旗標「applyCrossfade」(其中例如零值可指示不應用平滑轉換)、關於預載訊框之數目之資訊及關於預載訊框之資訊,其可被指定為「auLen」及「AccessUnit()」。
USAC訊框視情況進一步包含額外延伸元素,且通常包含單頻道元素、頻道對元素或較低頻率效應元素中之一或多者。
總之,USAC訊框(例如USAC訊框222或即刻播出訊框IPF中之一者)可例如包含延伸語法元素,其中該延伸語法元素包含組配結構(例如222c)及關於一或多個預載訊框之資訊,該資訊可例如用以將處理鏈之狀態帶入至所要狀態且可例如對應於資訊222d。此外,USAC訊框亦包含已編碼音訊資訊,比如單頻道元素、頻道對元素或低頻效應元素。因此,音訊解碼器基於串流識別符「streamId()」而有可能辨識出音訊串流之改變。而且,音訊解碼器有可能執行USAC訊框600之無人為效應解碼,此係由於可基於包括於組配結構中之組配資訊而設定解碼參數,且由於可基於預載訊框資訊而設定音訊解碼之適當狀態。因此,所描述之USAC訊框允許在解碼來自不同音訊串流之訊框之間進行切換,且亦允許在無額外控制資訊的情況下由音訊解碼器偵測到該切換。
本文中所描述之USAC訊框600可對應於音訊訊框222或可對應於包括於已編碼音訊信號表示312中的第二音訊串流之第一訊框或可對應於包括於編碼信號表示412中的第二音訊串流之第一訊框,或可對應於如圖5中所展示之即刻播出訊框IPF。 6. 根據圖7之實例音訊串流
圖7展示實例音訊串流之表示,其可由本文中所描述之音訊編碼器中之一者提供且可由本文中所描述之音訊解碼器中之一者解碼。圖7之音訊串流亦可由如本文中所描述之音訊串流提供器提供。
該音訊串流700包含例如解碼器組配資訊而作為第一資訊區塊。解碼器組配資訊可例如包含如USAC標準中所定義的位元串流元素「UsacConfig()」。解碼器組配資訊可例如指示為一之串流識別符且可被認為是處於串流之開端的串流存取點。
音訊串流亦包含音訊訊框資料資訊單元720,該音訊訊框資料資訊單元可能例如不包含任何預載資料且亦可不包含任何串流識別符資訊。舉例而言,資訊單元720可為USAC訊框且可例如對應於如USAC標準中所定義的位元串流語法元素「UsacFrame()」。
資訊單元710及720可例如兩者皆屬於第一音訊串流。
音訊串流700亦可包含資訊單元730,該資訊單元可例如表示包括於音訊串流700中的第二串流之第一訊框。該資訊單元730可例如包含音訊訊框資料、預載資料及串流識別符資訊。串流識別符資訊可例如指示不同於包括於資訊單元710中之串流識別符的為二之串流識別符。
資訊單元730可例如被認為是串流存取點。
舉例而言,資訊單元730可根據如USAC標準中所定義的位元串流元素「UsacFrame()」之語法。然而,資訊單元730可包含屬於類型「id_ext_ele_audiopreroll」之延伸元素。此延伸元素可包含例如根據位元串流語法「UsacConfig」之組配結構,以及例如根據位元串流語法「UsacConfigExtension」之組配延伸結構。組配延伸結構可例如包含編碼串流識別符的類型「ID_CONFIG_EXT_STREAM_ID」之延伸元素。因此,資訊項目或資訊單元730可例如包含如上文所解釋之USAC訊框600之資訊。
因此,資訊單元730可表示第二串流之音訊訊框,且提供用於組配音訊解碼器以適當地解碼音訊訊框之完整組配資訊。詳言之,組配資訊亦包含用於設定音訊解碼器之狀態之音訊預載資訊,且組配資訊包含允許音訊解碼器辨識資訊單元730相比於資訊單元700、710是否與不同的音訊串流相關聯的串流識別符。
音訊串流700亦包含在資訊單元700之後的資訊單元740。資訊單元740可例如為僅包含音訊訊框資料、不包含預載資料、不包含組配資料且不包含串流識別符的「正常」音訊訊框。舉例而言,資訊單元740可在不利用任何延伸元素的情況下遵循位元串流語法「UsacFrame()」。
音訊串流700亦可包含資訊單元750,該資訊單元可例如包含音訊訊框資料及預載資料,但可能不包含串流識別符。資訊單元750可因此而是用作串流存取點,但可能不允許偵測到不同串流之間的切換。
舉例而言,資訊單元750可根據位元串流語法「UsacFrame()」與延伸元素「ID_ext_ele_audiopreroll」。然而,在資訊單元750中,為音訊預載延伸元素之部分的組配資訊不包含串流識別符。因此,資訊單元750無法可靠地用作在不同音訊串流之間切換之後的第一資訊單元。另一方面,資訊單元730可可靠地用作在不同音訊串流之間切換之後的第一資訊單元,此係由於包括於其中之串流識別符允許偵測到不同串流之間的切換且由於該資訊單元亦包含用於解碼之完整資訊,包括組配資訊及預載資訊。
總之,音訊串流700可包含具有不同資訊內容之「資訊單元」或已編碼音訊訊框。可存在僅包含已編碼音訊資料而不包含組配資料且不包含預載資料的「極簡單」音訊訊框。而且,可存在包含已編碼音訊資訊以及組配資訊且亦包括串流識別符及預載資訊的音訊訊框。此類訊框允許識別在不同音訊串流之間的切換且允許完全獨立解碼。
此外,亦可視情況存在僅具有部分資訊但例如因為並不存在串流識別符資訊而不允許可靠識別在不同串流之間的切換的訊框。
應注意,根據圖1及圖2之音訊解碼器通常可利用音訊串流700,且根據圖3及圖4之音訊編碼器及音訊串流提供器通常可提供如圖7中所展示之音訊串流700 (例如作為已編碼音訊信號表示312、314)。 7. 根據圖8之音訊串流
圖8展示根據本發明之另一實施例的實例音訊串流之表示。
根據圖8之音訊串流之整體係以800指定。
應注意,資訊單元810a至810e屬於第一音訊串流。舉例而言,資訊單元810a可包含解碼器組配且可例如遵循如USAC標準中所定義的位元串流語法「UsacConfig()」。解碼器組配可例如包含可相似於組配結構222c的組配結構。舉例而言,資訊單元810可包括串流識別符延伸部分,其中串流識別符可例如包括於組配結構之組配延伸結構中。
資訊單元810b可例如包含音訊訊框資料(比如已編碼頻譜值及已編碼比例因數資訊),而不包含預載資料且不包含串流識別符。資訊單元810d之結構可與資訊單元810b之結構相似或相同,且亦表示音訊訊框資料,而不表示預載資料且不表示串流識別符。
此外,音訊串流可包含部分820,該部分820在部分810之後且與不同於第一音訊串流之第二音訊串流相關聯。該部分820包含資訊單元820a,該資訊單元包含音訊訊框資料與預載資料,其中該預載資料(例如在組配結構內)包括串流識別符延伸部分。因此,資訊單元820a表示音訊訊框。若音訊解碼器基於串流識別符延伸部分發現先前已解碼音訊訊框係來自另一音訊串流,則可由該音訊解碼器使用預載資料以在解碼資訊單元820a中之音訊訊框資料之前將該音訊解碼器設定至適當狀態。因此,資訊單元820a良好地適合於在不同音訊串流之間切換之後的第一資訊單元。
區塊820亦包含一個、兩個或多於兩個資訊單元820b、820d,該等資訊單元包含音訊訊框資料但不包含預載資料且亦不包含串流識別符。
資料串流800亦包含與第三音訊串流相關聯之部分830。該部分830包含資訊單元830a,該資訊單元包含音訊訊框資料與預載資料且包括串流識別符延伸部分。該部分830進一步包含資訊單元830b,該資訊單元包含音訊訊框資料,而不包含預載資料且不包含串流識別符。該第三部分830亦包含資訊單元830d,該資訊單元包含音訊訊框資料與預載資料,但不包含串流識別符。
因此,可看到,音訊串流800包含起源於不同音訊串流之後續部分,其中在自一串流至另一串流之各轉變處,存在包含音訊訊框資料與預載資料及串流識別符的資訊單元(例如已編碼音訊訊框)。因此,由於在已編碼音訊訊框內可得到在自一音訊串流至另一音訊串流之各切換處的串流識別符資訊,故音訊解碼器可藉由評估串流識別符(例如依據與先前所獲得之經儲存串流識別符進行比較)而容易辨識該轉變。
應注意,音訊串流可由本文中所描述之音訊編碼器或位元串流提供器提供,且音訊串流800可由本文中所描述之音訊解碼器評估。 8. 根據圖9之解碼器功能性
圖9展示如本文中所描述之音訊解碼器之可能解碼器功能性的示意性表示。
舉例而言,如參看圖9所描述之功能性可被實施於根據圖1之音訊編碼器100中或被實施於根據圖2之音訊解碼器200中。舉例而言,圖5中所描述之功能性可用以決定如何繼續解碼。
然而,應注意,如參看圖9所描述之功能性僅為實例,且例如可改變決策之次序,只要總功能性保持相同即可。而且,有可能組合決策,其限制條件為並不修改總功能性。
假定如圖9中所解釋之功能性具有關於涉及先前已解碼訊框之資訊的知識,且評估可遵守本文中所描述之語法之新音訊訊框。
舉例而言,在第一檢查110中,音訊解碼器可檢查是否存在「隨機存取」,亦即,至串流存取點之跳躍作業。若辨識出存在至串流存取點之跳躍,其中訊框之「正常」次序已有意地改變,則解碼器功能性繼續進行評估串流存取點之組配資料以便重新初始化解碼器的步驟920。可視情況執行平滑轉換以便避免突然切換。應注意,隨機存取意謂自第一訊框「跳躍」至第二訊框,其中該第二訊框之訊框索引並非直接在先前已解碼訊框之訊框索引之後。換言之,隨機存取為自具有訊框索引n之訊框至具有訊框索引o之訊框的跳躍,其中o不同於n+1。
在步驟920中,執行跳躍,其中跳躍目標為訊框,該訊框為即刻播出訊框且包含用以重新初始化解碼器之足夠資訊。
然而,若在檢查910中發現不存在「隨機存取」而是存在「相連播放」,則可執行另一檢查930。換言之,若解碼自具有訊框索引n之訊框進行至具有訊框索引n+1之訊框,則執行該檢查930。
在檢查930中,檢查在不考慮串流識別符(例如直至但不包括該串流識別符)的情況下定義於串流存取點(或中間播出訊框)之組配結構中的(相關)組配是否不同於當前組配。若串流存取點之組配結構中所描述的(相關)組配不同於當前組配(路徑「是」),則解碼可在步驟940處繼續進行。然而,應注意,步驟930可自然地僅在下一訊框為包含組配結構之串流存取點的情況下來執行。若下一訊框不包含組配結構,則自然地不能執行步驟930,且可發現與當前組配無差異。
然而,若發現在步驟930中,下一訊框之組配結構中之組配(在不考慮串流識別符的情況下)相同於當前組配,則進行區塊950中所展示的下一檢查。在步驟950中,判定串流存取點是否(例如在組配結構內)包含串流識別符。舉例而言,未必需要使包括串流識別符,但若存在組配延伸結構且若此組配延伸結構實際上包含為串流識別符的資料結構元素,則使串流識別符僅包括於組配結構中。若在比較950中發現串流存取點包含串流識別符(分支「是」),則將包括於下一訊框(待解碼之訊框)之串流存取點中的串流識別符與當前(經儲存)串流識別符進行比較。若發現包括於下一訊框(待解碼之訊框)中之串流識別符不同於當前串流識別符(決策960之分支「是」),則跳至區塊940。另一方面,若發現下一訊框之串流識別符相同於經儲存之串流識別符,則在組配延伸結構中在串流識別符之後的另外組配資訊(例如組配延伸)不考慮用於判定是否執行「轉變」或初始的初始化(步驟960之分支「否」)。
然而,若在檢查950中發現串流存取點(待解碼之下一訊框)不包含串流識別符或若發現待解碼之下一訊框之串流識別符等於經儲存之串流識別符,則工序在步驟970處繼續。
此外,應注意,步驟940包含在使用舊組配之音訊訊框與使用新組配之音訊訊框之間轉換。為了使用新組配解碼音訊訊框,重新初始化音訊解碼器(其可包含初始化新解碼器執行個體)。而且,「清除」舊解碼器執行個體且執行平滑轉換。
另一方面,步驟970包含在不重新初始化解碼器的情況下解碼下一訊框,其中捨棄(不考慮)可包括於下一訊框中之預載資訊。
總之,存在不論何時音訊解碼器獲得亦可被認為是「串流存取點」的「中間播出訊框」皆可執行的不同可能性。而且應注意,通常在並非「中間播出訊框」或「串流存取點」的訊框處不進行特定處理,此係因為由於不存在組配結構且在此類音訊訊框中不可得到預載資訊,故此類訊框並不允許重新初始化音訊解碼器。
當解碼器知曉存在「跳躍」,亦即與正常訊框排序之偏差時,自然地重新初始化通常使用預載資訊且亦使用新組配結構之音訊解碼器(即使當在同一串流內跳躍時亦如此)。
若不存在此類「跳躍」,則存在以下不同狀況: 若音訊解碼器發現待解碼之下一串流之組配資訊(直至並包括組配識別符)不同於經儲存資訊,則亦將重新初始化該音訊解碼器。另一方面,若音訊解碼器發現待解碼之下一訊框之組配資訊(直至並包括串流識別符(若存在))相同於自先前已解碼訊框獲得之經儲存資訊,則將不執行重新初始化。在任何狀況下,在決定是否執行重新初始化時,組配結構中置放於串流識別符之後的組配資訊將由音訊解碼器忽略。而且,若音訊解碼器發現在組配結構內不存在串流識別符,則其將自然地不考慮該串流識別符來與經儲存資訊比較。
然而,為了以計算上高效方式執行評估,解碼器可首先檢查在串流識別符之前的組配資訊與經儲存組配資訊,接著檢查在組配結構中是否包括串流識別符,且接著繼續將該串流識別符(若存在於組配結構中)與經儲存串流識別符進行比較。一旦音訊解碼器發現差異,其就可決定重新初始化。另一方面,若音訊解碼器並未發現直至包括串流識別符的組配資訊之間的偏差,則其可決定省略重新初始化。
因此,不應引起重新初始化的較小組配改變可在組配延伸結構中之串流識別符之後由音訊編碼器傳信,且在此狀況下,音訊解碼器可藉由僅稍微改變之組配繼續進行解碼(其不需要重新初始化)。
總之,如參看圖9所描述之解碼器功能性可用於本文中所描述之音訊解碼器中的任一者中,但應被認為係選用的。 9. 根據圖10a、圖10b、圖10c及圖10d之位元串流語法
在下文中,將描述位元串流語法。詳言之,將描述組配結構之語法。作為一實例,將描述組配結構「UsacConfig()」之語法,其可代替組配結構222c或組配結構332或組配結構424或圖6中所展示之組配結構「Config()」,或如圖7中所展示之組配結構「UsacConfig()」或圖8中所展示之組配結構「Config」。
圖10展示組配結構「UsacConfig()」之表示。如可看到,該組配結構可例如包含取樣頻率索引資訊1020a且視情況包含取樣頻率資訊1020b。取樣頻率索引資訊1020a (可能與取樣頻率資訊1020b組合)例如描述由編碼器使用之取樣頻率,且因此亦描述待由音訊解碼器使用之取樣頻率。
此外,組配結構亦可包含用於頻譜帶複製(SBR)之訊框長度索引資訊。舉例而言,索引可判定例如如USAC標準中所定義的用於頻譜頻寬複製之參數之數目。
此外,組配結構亦可包含可例如判定頻道組配之頻道組配索引1024a。頻道組配索引資訊可例如定義頻道之數目及關聯揚聲器映射。舉例而言,頻道組配索引資訊可具有如USAC標準中所定義之涵義。舉例而言,若頻道組配索引資訊等於零,則關於頻道組配之細節可包括於「UsacChannelConfig()」資料結構1024b中。
此外,組配結構可包含解碼器組配資訊1026a,該解碼器組配資訊可例如描述(或列舉)存在於音訊訊框資料結構中之資訊元素。舉例而言,解碼器組配資訊可包含USAC標準中所描述的元素中之一或多者。
此外,組配結構1010亦包含旗標(例如被命名為「UsacConfigExtensionPresent」),該旗標指示組配延伸結構(例如組配延伸結構226)之存在。組配結構1010亦包含組配延伸結構,該組配延伸結構例如係以「UsacConfigExtension()」1028a指定。該組配延伸結構較佳為組配結構1010之部分,且可例如由緊跟在表示組配結構1010之其他組配項目之位元之後的位元序列表示。該組配延伸結構可例如攜載串流識別符資訊,如下文將描述。
在下文中,將參看圖10b描述組配延伸結構之可能語法,其中組配延伸結構之整體係以1030指定且對應於組配延伸結構1028a。
組配延伸結構(亦被指定為「UsacConfigExtension()」)可例如在語法元素1040a中編碼組配延伸部分之數目。應注意,可任意地選擇不同組配延伸資訊項目之次序,此係由於針對各組配延伸項目存在組配延伸類型資訊1042a及組配延伸長度資訊1044a。因此,組配延伸結構1030可以可變次序攜載多個組配延伸項目(或組配延伸資訊項目),其中音訊編碼器可判定首先編碼哪一組配延伸項目且稍後編碼哪一組配延伸項目。舉例而言,對於各組配資訊項目,首先可存在組配延伸類型識別符1042a、接著是組配延伸長度資訊1044,且接著可存在各別組配延伸資訊項目之「酬載」。各別組配延伸資訊項目之酬載之編碼可例如取決於由組配延伸類型資訊所指示的組配延伸資訊項目之類型而變化,且各別組配延伸資訊項目之酬載之長度可藉由各別組配延伸長度資訊1044a之值而判定。舉例而言,倘若組配延伸資訊項目為填充資訊,則可存在一或多個填充位元組。另一方面,若組配延伸資訊項目為組配延伸響度資訊,則可存在包含關於響度之資訊之資料結構(例如被指定為「loudnessInfoSet()」)。
此外,若組配延伸資訊項目為串流識別符,則可存在被指定為「streamId()」的串流識別符之數字表示。不同類型之組配延伸資訊項目的語法實例係以圖式元件符號1046a、1048a及1050a展示。
總之,組配延伸結構之語法係使得不同組配資訊項目之次序可發生變化。舉例而言,串流識別符組配延伸資訊項目可由音訊編碼器置放於其他組配延伸資訊項目之前或之後。因此,音訊編碼器可藉由在組配延伸結構內置放串流識別符組配延伸資訊項目從而控制在由當前組配結構指示之組配與由音訊解碼器先前獲取之組配資訊之間的比較中,應考慮組配延伸結構之哪些其他資訊項目。通常,在組配延伸結構之前的組配資訊項目及直至並包括串流識別符資訊的任何組配延伸資訊項目在此比較中將被考慮,而在串流識別符組配延伸資訊項目之後已編碼於位元串流中的任何組配延伸資訊項目在該比較中將被忽略。
因此,如關於圖10a及圖10b所解釋之組配結構良好地適合於根據本發明之概念。
圖10展示串流識別符(組配延伸)資訊項目之語法,該串流識別符資訊項目亦以「StreamId()」指定(或具有「streamId()」)。如可看到,串流識別符可由16位元二進位數表示。因此,可將多於65000個不同值編碼為串流識別符,其通常足以辨識不同音訊串流之間的任何轉變。
圖10d展示向不同組配延伸資訊項目分配類型識別符的實例。舉例而言,類型「串流識別符」之組配延伸資訊項目可由組配延伸類型資訊1042a之值七表示。其他類型之組配延伸資訊項目可例如由組配延伸類型識別符1042a之其他值表示。
總之,圖10a至圖10d描述可由音訊編碼器使用以編碼串流識別符資訊且可由音訊解碼器使用以擷取串流識別符資訊的組配結構之可能語法(或語法延伸)。
然而,應注意,此處所描述之組配結構應僅被認為係實例且可遍及廣泛範圍而修改。舉例而言,可以不同方式編碼取樣頻率索引資訊及/或取樣頻率資訊及/或頻譜頻寬複製訊框長度索引資訊及/或頻道組配索引資訊。而且視情況,可丟棄上述資訊項目中之一或多者。此外,亦可省略UsacDecoderConfig資訊項目。
此外,可修改組配延伸部分之數目之編碼、組配延伸類型之數目之編碼及組配延伸長度之數目之編碼。而且,不同組配延伸資訊項目亦應被認為是選用的,且可能亦以不同方式而編碼。
此外,串流識別符亦可以更多或更少位元而編碼,其中可使用不同類型之數字表示。此外,將識別符數目分配給不同組配延伸類型應被認為是較佳實例,但並不被認為是必需特徵。 9. 結論
在下文中,將描述可個別地使用或組合本文中所描述之實施例而使用的根據本發明之一些態樣。
詳言之,本文中將描述根據本發明之解決方案。
應注意,根據本發明之實施例之態樣係由所附申請專利範圍描述。
然而,如由申請專利範圍所定義之實施例可視情況由本文中所描述之特徵中的任一者個別地或組合地補充。而且,應注意,括號「()」或「[]」應被認為是選用的,尤其在用於申請專利範圍中時。
然而應注意,下文中所描述之本發明之特徵亦可與申請專利範圍之特徵分離地使用。
此外,申請專利範圍中所描述之特徵及功能性及下文中所描述之特徵及功能性可視情況與描述本發明之態樣、實施例及習知途徑之可能使用情境所隱含的問題之章節中所描述的特徵及功能性組合。詳言之,本文中所描述之特徵及功能性可用於根據ISO/IEC 23003-3: 2012(包括修正案3),子條項「位元率適應」(例如如在本申請案之優先權申請之申請日時標準化,或如在本發明之申請日時標準化,而且視情況包括另外未來修改)之USAC音訊解碼器中。
根據本發明之態樣,提議引入具有usacConfigExtType==ID_CONFIG_EXT_STREAM_ID的USAC之新組配延伸部分(例如至USAC位元串流語法中),其中關聯位元串流結構含有簡單的通用16位元識別符位元欄位。此識別符在用於意欲在之間進行無縫切換的串流集合內之所有串流的任何兩個組配結構之間應不同(可例如由音訊編碼器或由音訊串流提供器選擇為不同的)。此串流集合之一個實例為MPEG-DASH傳送使用狀況下之所謂的「適應集合」。
所提議之唯一串流ID組配延伸部分將例如確保在比較當前組配結構(或當前組配)與新組配結構(例如在音訊編碼器之側處或在音訊解碼器之側處)時,正確地識別該新組配(及因此新串流)且解碼器將如所預期及所意欲地表現,例如,解碼器將進行適當解碼器清除、預載存取單元及執行平滑轉換(在適用時)。
以下為(例如如在本申請案之申請日時標準化或如在優先權申請案之申請日時標準化,且視情況包含任何未來修改的MPEG-D USAC (ISO/IEC 23003-3+AMD.1+AMD-2+AMD.3))之所提議說明書文字(修改)。
下文所提及之段落描述可個別地或與USAC音訊解碼器組合地或在另一基於訊框之音訊解碼器內使用的本發明之態樣。
如下表15中所展示之組配延伸部分可由音訊編碼器使用以便提供音訊位元串流,且可由音訊解碼器使用以便自音訊位元串流擷取資訊。
當根據上文所提及之USAC標準使用音訊編碼及解碼時,章節5.2中之表15應以表15之以下更新版本替換:表15—UsacConfigExtension() 之語法
而且,當根據USAC標準考慮音訊編碼或音訊解碼時,在USAC標準之章節5.2結束時,應新增如下新表AMD.01(其中編碼細節、位元數係選用的):表AMD.01 —StreamId() 之 語法
然而,在該等表中,編碼細節及例如位元數應被認為是選用的。
此外,當根據USAC標準考慮編碼或解碼時,應在「6.1.14 UsacConfigExtension()」之後新增以下子條項6.1.15。 “6.1.15 唯一串流識別符( 串流ID) 6.1.15.1 術語、定義 及語義 串流識別符
雙位元組無正負號整數串流識別符(串流ID),其應唯一地識別意欲在之間無縫切換的關聯串流集合內之串流之組配。串流識別符
可採取自0至65535之值。(編碼細節係選用的)
實例
當為如ISO/IEC 23009中所定義之MPEG-DASH適應集合之部分時,彼DASH適應集合中之串流的所有串流ID應為成對相異的。6.1.15.2 串流識別符描述
類型ID_CONFIG_EXT_STREAM_ID之組配延伸部分提供用於傳信串流識別符(簡言之:「串流ID」)之容器。串流ID組配延伸部分允許將唯一整數附接至組配結構使得可區分兩個串流之音訊位元串流組配,即使該組配結構之其餘部分(位元)相同。 類型ID_CONFIG_EXT_STREAM_ID之組配延伸部分之usacConfigExtLength應具有值二(2)。(視情況亦可不同) 任何給定音訊位元串流不應具有類型ID_CONFIG_EXT_STREAM_ID之多於一個組配延伸部分。(選用)
若規則操作之解碼器執行個體例如借助於ID_EXT_ELE_AUDIOPREROLL延伸酬載中之Config()接收新組配結構,則其應比較此新組配結構與當前作用中組配(參見例如7.18.3.3)。此類比較可例如借助於對應組配結構中之逐位元比較來進行。
若組配結構含有組配延伸部分,則例如直至並包括類型ID_CONFIG_EXT_STREAM_ID之組配延伸部分的所有組配延伸部分應包括於該比較中。在類型ID_CONFIG_EXT_STREAM_ID之組配延伸之後的所有組配延伸在該比較期間應例如不不被考慮。(選用) 注意 以上規則允許編碼器控制特定組配延伸部分中之改變是否應引起解碼器重新組配”。
應注意,來自新增至標準的此段落之定義及細節可視情況個別地或組合地用於根據本發明之實施例中(不管何種情況)。
當考慮USAC編碼或解碼時,條項6中之表74應以如圖10d中所展示之表替換。
總之,已描述了可能引入至USAC標準中之一些可能改變。然而,如此處所描述之概念亦可結合其他音訊寫碼標準而使用。換言之,亦將有可能將如此處所描述之串流識別符資訊引入至任何其他音訊寫碼標準之某一組配結構中。
此處關於串流識別符資訊所描述之特徵在與其他寫碼標準組合時亦可適用。在此狀況下,術語應適應於各別音訊寫碼標準之術語。
在下文中,將描述根據本發明之一些選用效應及優點或特徵。
所呈現之組配延伸部分提供用以區分另外位元相同的組配結構之可容易實施解決方案。所獲得之在組配之間的可區分性實現例如在串流之間具有無縫轉變的動態自適應性串流傳輸之正確且最初所欲的功能性。
在下文中,將描述一些替代解決方案。
舉例而言,若編碼器確保串流集合內之所有串流具有不同的組配,亦即其利用不同編碼工具或使用不同參數化,則可避免上文所提及之問題。若個別串流之位元率之差異足夠大,則此通常引起成對相異之組配。若需要位元率之精細柵格(常常為此狀況),則(習知)解決方案在一些狀況下將不起作用。
與此對比,藉由使用包括於組配部分(亦被指定為組配結構)中之串流識別符來區分不同串流,在組配結構之其餘部分相同的情況下(此有時為位元率相似時之狀況)亦可區分串流。
替代地(例如作為使用串流識別符之替代方案),吾人可建立針對各串流而發生變化但在某種程度上經不同地結構化之適當的未指定組配延伸部分。效應將相同。然而無法保證正確功能性,此係因為無法保證所有解碼器實施在以上所描述之情境中比較多個組配時皆評估此未指定組配。
與此對比,根據本發明之實施例建立在組配結構中明確指定串流識別符且該串流識別符允許對不同串流之良好定義之區別的概念。
應注意,本發明性概念之實施可藉由USAC串流之組配結構之分析來辨識。此外,本發明性概念之實施可藉由測試如以上所描述之組配延伸部分之存在來辨識。
在下文中,將描述針對根據本發明之態樣之一些可能的應用領域。
根據本發明之實施例提供在其他方面相同資料結構之可區分性。
根據本發明之另外實施例提供在其他方面相同的音訊編解碼器組配結構之可區分性。
根據本發明之實施例允許在任何傳輸網路上之音訊之無縫動態自適應性串流傳輸。
在下文中,將描述應被認為是選用的一些另外態樣。
舉例而言,在下文中將描述音訊編碼器/音訊串流提供器行為。在下文中,將描述關於音訊編碼器(其亦可採取音訊串流提供器之形式)之一些選用細節。
音訊編碼器通常並不產生突然改變其組配之一個(單)串流,而是包含多個編碼器執行個體的編碼器或編碼器構架並行地產生多個串流,該多個串流在該等串流內之經同步位置(時間點)處分別包含即刻播出訊框(「IPF」)。
解碼器構架接著根據特定及/或預定準則(比如網際網路連接之品質)而選擇並行地產生之串流中之一者且「要求」(或請求)編碼器側伺服器確切地發送彼串流且接著將該串流轉遞至解碼器。所有其他已編碼串流僅被忽略。接著僅在IPF處允許串流之間的改變。
音訊解碼器最初並未辨識出此改變及/或並未被告知此改變,例如由解碼器構架告知。實情為,音訊解碼器需要藉由比較嵌入之組配結構(「組配結構(Config-structure)」)而偵測到串流改變。自解碼器之視角,看來好像編碼器僅產生具有改變之組配(「組配(Config)」)的串流。實際上,通常並非為此狀況。實情為,多個變體(包含不同位元率)總是(連續地)由編碼器並行地產生;僅解碼器構架及編碼器側伺服器(或串流提供器)分裂串流且重組(重新串連)該等串流之部分(或該等串流)。
圖中展示另外選用細節。
此外,應注意,圖中所展示之設備可由本文中所描述之特徵及功能性中之任一者個別地或組合地補充。
總之,音訊編碼器或音訊串流提供器可在供應不同串流至某一音訊解碼器(或至音訊解碼裝置)之間進行切換,其中可例如應音訊解碼器或音訊解碼裝置之請求或應任何其他網路管理裝置之請求或甚至藉由音訊編碼器或音訊串流提供器之決策而執行該切換。在供應來自不同音訊串流之訊框之間的切換可用以將實際位元率調適至可用位元率。自音訊編碼器(或音訊串流提供器)傳信至音訊解碼器之解碼器組配在不同串流之間可能相同,但串流識別符在不同串流之間應不同。因此,音訊解碼器可使用串流識別符來辨識何時應使用包括於即刻播出訊框中的額外資訊(例如組配資訊及預載資訊)來進行音訊解碼器之重新初始化。
進一步推斷出,使用如本文中所描述之串流識別符(「streamID」)可克服描述本發明之態樣及實施例之可能使用情境所隱含的問題之章節中所提及之問題。 10. 方法
圖11a至圖11c展示根據本發明的根據實施例之方法之流程圖。
如圖11a至圖11c中所展示方法可由本文中所描述之特徵及功能性中的任一者補充。 11. 實施替代方案
儘管已在設備之上下文中描述一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或項目或對應設備之特徵的描述。可由(或使用)硬體設備(比如微處理器、可規劃電腦或電子電路)執行方法步驟中之一些或全部。在一些實施例中,可由此類設備執行最重要之方法步驟中之一或多者。
本發明已編碼音訊信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可在硬體或軟體中實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該電子可讀控制信號與可規化電腦系統協作(或能夠協作),使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,其能夠與可規劃電腦系統協作,以使得執行本文中所描述方法中之一者。
通常,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品於電腦執行上時,程式碼操作性地用於執行該等方法中之一者。程式碼可例如儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中的一者的電腦程式。
換言之,本發明方法之實施例因此為電腦程式,其具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中之一者的程式碼。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或所記錄媒體通常係有形的及/或非瞬變的。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料串流或信號序列可例如經組配以經由資料通訊連接(例如經由網際網路)而傳送。
另一實施例包括處理構件,例如經組配或經調適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯裝置。
另一實施例包含電腦,該電腦具有安裝於其上之用於執行本文中所描述之方法中的一者的電腦程式。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如電子地或光學地)至接收器的設備或系統。舉例而言,接收器可為電腦、行動裝置、記憶體裝置或其類似者。設備或系統可例如包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可規劃邏輯裝置(例如場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。通常,較佳由任何硬體設備來執行該等方法。
本文中所描述之設備可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來實施。
本文中所描述之設備或本文中所描述之設備的任何組件可至少部分地以硬體及/或以軟體來實施。
本文中所描述之方法可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來執行。
本文中所描述之方法或本文中所描述之設備的任何組件可至少部分地由硬體及/或由軟體執行。
上文所描述之實施例僅僅說明本發明之原理。應理解,對本文中所描述之配置及細節的修改及變化將對熟習此項技術者顯而易見。因此,其僅意欲由接下來之申請專利範圍之範疇限制,而非由借助於本文中實施例之描述及解釋所呈現的特定細節限制。
100、200‧‧‧音訊解碼器
110、312、412、512、550‧‧‧已編碼音訊信號表示
110a‧‧‧組配資訊
112‧‧‧已解碼音訊信號表示
130、216、260‧‧‧解碼器核心
140、240‧‧‧記憶體/當前組配資訊
150‧‧‧比較器
212‧‧‧已解碼音訊信號表示/已解碼輸出信號
220‧‧‧音訊訊框
222‧‧‧音訊訊框/USAC訊框
220a‧‧‧音訊信號之已編碼表示
222b‧‧‧隨機存取資訊
222c‧‧‧組配結構/組配資訊
222d‧‧‧資訊
224a‧‧‧資訊或旗標或位元
226、1030‧‧‧組配延伸結構
228‧‧‧資訊、旗標、位元或識別符
230‧‧‧串流識別符
250‧‧‧比較器或比較件
272‧‧‧已解碼部分/第一串流之最後訊框之有用部分
274‧‧‧預載部分
276‧‧‧第二音訊串流之第一訊框之有用部分
300‧‧‧音訊編碼器
310‧‧‧輸入音訊信號
320‧‧‧編碼器核心
330‧‧‧組配結構供應件
332、424、1010‧‧‧組配結構
340‧‧‧編碼器控制件
400、500‧‧‧音訊串流提供器
422‧‧‧已編碼版本
423‧‧‧組配結構提供器
520‧‧‧第一音訊串流
530‧‧‧第二音訊串流
552‧‧‧第一已編碼音訊資訊/音訊訊框資訊/第一部分資訊
554‧‧‧第二音訊串流之音訊訊框之部分/音訊訊框/第二部分
n1、n2、n3、n4‧‧‧訊框位置/訊框索引
n1-1‧‧‧索引
n2-1、n4-1‧‧‧訊框索引
600‧‧‧USAC訊框
610‧‧‧USAC獨立性旗標
620‧‧‧延伸元素
700‧‧‧音訊串流
710‧‧‧資訊單元/第一已編碼音訊資訊/音訊訊框資訊/第一部分資訊
720‧‧‧音訊訊框資料資訊單元/第一已編碼音訊資訊/音訊訊框資訊/第一部分資訊
730、740、750‧‧‧資訊單元/音訊訊框/第二部分
800‧‧‧音訊串流/資料串流
810‧‧‧資訊單元/部分/第一已編碼音訊資訊/音訊訊框資訊/第一部分資訊
810a、810b、810d、810e、820a、820b、820d、830a、830b、830d‧‧‧資訊單元
820‧‧‧第二部分/區塊/音訊訊框
830‧‧‧第三部分
910‧‧‧第一檢查
920、970‧‧‧步驟
940‧‧‧步驟/區塊
930‧‧‧另一檢查/步驟
950‧‧‧步驟/比較/檢查
960‧‧‧決策/步驟
1020a‧‧‧取樣頻率索引資訊
1020b‧‧‧取樣頻率資訊
1024a‧‧‧頻道組配索引
1024b‧‧‧UsacChannelConfig()資料結構
1026a‧‧‧解碼器組配資訊
1028a‧‧‧組配延伸結構UsacConfigExtension()
1040a‧‧‧語法元素
1042a‧‧‧組配延伸類型資訊/組配延伸類型識別符
1044、1044a‧‧‧組配延伸長度資訊
1046a、1048a、1050a‧‧‧組配延伸資訊項目之語法實例/組配資訊項目
隨後將參考所附圖描述根據本發明之實施例,在該等圖中: 圖1展示根據本發明之(簡單)實施例的音訊解碼器之示意方塊圖; 圖2展示根據本發明之實施例的音訊解碼器之示意方塊圖; 圖3展示根據本發明之(簡單)實施例的音訊編碼器之示意方塊圖; 圖4展示根據本發明之(簡單)實施例之音訊串流提供器的示意方塊圖; 圖5展示根據本發明之實施例的音訊串流提供器之示意方塊圖; 圖6展示根據本發明之實施例的音訊訊框之表示,該音訊訊框允許隨機存取且在組配延伸部分中包含具有串流識別符之組配部分; 圖7展示根據本發明之實施例的實例音訊串流之表示; 圖8展示根據本發明之實施例的實例音訊串流之表示; 圖9展示如本文中所描述之音訊解碼器之可能解碼器功能性的示意性表示; 圖10a展示供本文中所描述之音訊編碼器及音訊解碼器使用的實例組配結構之表示;及 圖10b展示供本文中所描述之音訊編碼器及音訊解碼器使用的實例組配延伸結構之表示。 圖10c展示實例串流識別符位元串流元素之表示;及 圖10d展示可視情況替換USAC標準中之表74的「usacConfigExtType」之值之實例; 圖11a展示用於根據本發明之實施例的基於已編碼音訊信號表示提供已解碼音訊信號表示之方法的流程圖; 圖11b展示用於根據本發明之實施例的提供已編碼音訊信號表示之方法的流程圖;及 圖11c展示用於根據本發明之實施例的提供已編碼音訊信號表示之方法的流程圖。
Claims (33)
- 一種用於基於一已編碼音訊信號表示提供一已解碼音訊信號表示之音訊解碼器,其中該音訊解碼器經組配以取決於一組配資訊而調整解碼參數,其中該音訊解碼器經組配以使用一當前組配資訊來解碼一或多個音訊訊框,且其中該音訊解碼器經組配以比較與待解碼之一或多個訊框相關聯的一組配結構中之一組配資訊與該當前組配資訊,且在與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊或與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊之一相關部分不同於該當前組配資訊的情況下進行一轉變,以使用與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊作為一新組配資訊來執行一解碼;其中該音訊解碼器經組配以在比較該組配資訊時考慮包括於該組配結構中的一串流識別符資訊,使得先前由該音訊解碼器獲取之一串流識別符與由與待解碼之該一或多個訊框相關聯的該組配結構中之該串流識別符資訊表示的一串流識別符之間的一差異使得進行該轉變。
- 如請求項1之音訊解碼器,其中該音訊解碼器經組配以檢查該組配結構是否包含該串流識別符資訊,且在該串流識別符資訊包括於該組配結構中的情況下在該比較中選擇性地考慮該串流識別符資訊。
- 如請求項1或2之音訊解碼器,其中該音訊解碼器經組配以檢查該組配結構是否包含一組配延伸結構,且檢查該組配延伸結構是否包含該串流識別符資訊,且其中該音訊解碼器經組配以在該串流識別符資訊包括於該組配延伸結構中的情況下在該比較中選擇性地考慮該串流識別符資訊。
- 如請求項3之音訊解碼器,其中該音訊解碼器經組配以接受該組配延伸結構中之組配資訊項目的一可變排序,且其中該音訊解碼器經組配以在比較與待解碼之一或多個訊框相關聯的該組配結構中之該組配資訊與該當前組配資訊時考慮在該組配延伸結構中配置於該串流識別符資訊之前的組配資訊項目,且其中該音訊解碼器經組配以在比較與待解碼之一或多個訊框相關聯的該組配結構中之該組配資訊與該當前組配資訊時不考慮在該組配延伸結構中配置於該串流識別符資訊之後的組配資訊項目。
- 如請求項4之音訊解碼器,其中該音訊解碼器經組配以基於在該組配延伸結構中之一或多個組配資訊項目之前的一或多個組配延伸類型識別符而識別該等各別組配資訊項目。
- 如請求項3之音訊解碼器,其中該組配延伸結構為該組配結構之一子資料結構,其中該組配延伸結構之一存在係由該組配結構之由該音訊解碼器評估的一位元指示,且其中該串流識別符資訊為該組配延伸結構之一子資料項目,其中該串流識別符資訊之一存在係由與該串流識別符資訊相關聯的由該音訊解碼器評估之一組配延伸類型識別符指示。
- 如請求項1之音訊解碼器,其中該音訊解碼器經組配以獲得及處理包含一隨機存取資訊之一音訊訊框表示,其中該隨機存取資訊包含一組配結構及用於將該音訊解碼器之一處理鏈之一狀態帶入至一所要狀態之資訊,其中該音訊解碼器經組配以在如下情況下在由在獲得包含該隨機存取資訊之該音訊訊框表示之前處理的一音訊訊框所表示的一音訊資訊與在使用該隨機存取資訊之該組配結構進行該音訊解碼器之一初始化之後及在使用用於將該處理鏈之一狀態帶入至一所要狀態之該資訊調整該音訊解碼器之一狀態之後基於包含該隨機存取資訊之該音訊訊框表示而導出的一音訊資訊之間進行平滑轉換:該音訊解碼器發現該隨機存取資訊之該組配結構中的該組配資訊或該隨機存取資訊之該組配結構中的該組配資訊之一相關部分不同於該當前組配資訊。
- 如請求項7之音訊解碼器,其中該音訊解碼器經組配以在如下情況下繼續解碼,而不執行該音訊解碼器之一初始化且不使用用於將該音訊解碼器之該處理鏈之一狀態帶入至一所要狀態之該資訊:該音訊解碼器已解碼直接在由包含該隨機存取資訊之該音訊訊框表示所表示的一音訊訊框之前的一音訊訊框,且該音訊解碼器發現該隨機存取資訊之該組配結構中的該組配資訊之該相關部分等於該當前組配資訊。
- 如請求項7之音訊解碼器,其中該音訊解碼器經組配以在如下情況下使用該隨機存取資訊之該組配結構來執行該音訊解碼器之一初始化且使用用於將該處理鏈之一狀態帶入至一所要狀態的該資訊來調整該音訊解碼器之一狀態:該音訊解碼器尚未解碼直接在由包含該隨機存取資訊之該音訊訊框表示所表示的一音訊訊框之前的一音訊訊框。
- 一種用於提供一已編碼音訊信號表示之音訊編碼器,其中該音訊編碼器經組配以使用編碼參數來編碼一音訊信號之重疊或非重疊訊框,以獲得該已編碼音訊信號表示,其中該音訊編碼器經組配以提供描述該等編碼參數或待由一音訊解碼器使用之解碼參數之一組配結構,其中該組配結構包含一串流識別符。
- 如請求項10之音訊編碼器,其中該音訊編碼器經組配以在該組配結構之一組配延伸結構中包括該串流識別符,其中包含該串流識別符之該組配延伸結構可由該音訊編碼器啟用及停用。
- 如請求項11之音訊編碼器,其中該音訊編碼器經組配以使指定該串流識別符之一組配延伸類型識別符包括於該組配延伸結構中,以用信號表示該串流識別符在該組配延伸結構中之該存在。
- 如請求項10至12中任一項之音訊編碼器,其中該音訊編碼器經組配以提供包含該串流識別符之至少一個組配結構及不包含該串流識別符之至少一個組配結構。
- 如請求項10之音訊編碼器,其中該音訊編碼器經組配以在由音訊訊框之一第一序列表示的一第一已編碼音訊資訊之一供應與由音訊訊框之一第二序列表示的一第二已編碼音訊資訊之一供應之間進行切換,其中在音訊訊框之該第一序列之一最後訊框的一呈現之後,音訊訊框之該第二序列之一第一音訊訊框的一適當呈現需要一音訊解碼器之一重新初始化;其中該音訊編碼器經組配以使一組配結構包括於表示音訊訊框之該第二序列之該第一訊框的一音訊訊框表示中,該組配結構包含與音訊訊框之該第二序列相關聯的一串流識別符,其中與音訊訊框之該第二序列相關聯的該串流識別符不同於與音訊訊框之該第一序列相關聯的一串流識別符。
- 如請求項10之音訊編碼器,其中該音訊編碼器不提供指示自音訊訊框資訊之該第一序列至音訊訊框之該第二序列之該切換的任何其他傳信資訊,惟該串流識別符除外。
- 如請求項14之音訊編碼器,其中該音訊編碼器經組配以使用不同位元率提供音訊訊框之該第一序列與音訊訊框之該第二序列,且其中該音訊編碼器經組配以將相同的解碼器組配資訊傳信至一音訊解碼器以用於解碼音訊訊框之該第一序列且用於解碼音訊訊框之該第二序列,惟不同的位元串流識別符除外。
- 一種用於基於一已編碼音訊信號表示提供一已解碼音訊信號表示之方法,其中該方法包含取決於一組配資訊而調整解碼參數,其中該方法包含使用一當前組配資訊來解碼一或多個音訊訊框,且其中該方法包含比較與待解碼之一或多個訊框相關聯的一組配結構中之一組配資訊與該當前組配資訊,且其中該方法包含在與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊或與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊之一相關部分不同於該當前組配資訊的情況下進行一轉變,以使用與待解碼之該一或多個訊框相關聯的該組配結構中之該組配資訊作為一新組配資訊來執行一解碼,其中該方法包含在比較該組配資訊時考慮包括於該組配結構中的一串流識別符資訊,使得先前在該音訊解碼中獲取之一串流識別符與由與待解碼之該一或多個訊框相關聯的該組配結構中之該串流識別符資訊表示的一串流識別符之間的一差異使得進行該轉變。
- 一種用於提供一已編碼音訊信號表示之方法,其中該方法包含使用編碼參數來編碼一音訊信號之重疊或非重疊訊框,以獲得該已編碼音訊信號表示,其中該方法包含提供描述該等編碼參數或待由一音訊解碼器使用之解碼參數之一組配結構,其中該組配結構包含一串流識別符。
- 一種包含音訊串流之數位儲存媒體,其包含:一音訊信號之重疊或非重疊訊框之一已編碼表示;以及一組配結構,其描述編碼參數或待由一音訊解碼器使用之解碼參數,其中該組配結構包含表示一串流識別符之一串流識別符資訊。
- 如請求項19之數位儲存媒體,其中該串流識別符資訊包括於一組配延伸結構中,且其中該組配延伸結構為一組配結構之一子資料結構,其中該組配延伸結構之一存在係由該組配結構之一位元指示,且其中該串流識別符資訊為該組配延伸結構之一子資料項目,其中該串流識別符資訊之一存在係由與該串流識別符資訊相關聯的一組配延伸類型識別符指示。
- 如請求項19或20之數位儲存媒體,其中該串流識別符嵌入於一音訊訊框之一表示之一子資料結構中。
- 如請求項19之數位儲存媒體,其中該串流識別符僅嵌入於包含一組配結構的一音訊訊框之一表示之一子資料結構中。
- 一種用於提供一已編碼音訊信號表示之音訊串流提供器,其中該音訊串流提供器經組配以提供使用編碼參數而編碼的一音訊信號之重疊或非重疊訊框之已編碼版本,作為該已編碼音訊信號表示之一部分,其中該音訊串流提供器經組配以提供描述該等編碼參數或待由一音訊解碼器使用之解碼參數的一組配結構,作為該已編碼音訊信號表示之一部分,其中該組配結構包含一串流識別符。
- 如請求項23之音訊串流提供器,其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該串流識別符包括於該組配結構之一組配延伸結構中,其中包含該串流識別符的該組配延伸結構可由該組配結構中之一或多個位元啟用及停用。
- 如請求項24之音訊串流提供器,其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該組配延伸結構包含指定該串流識別符之一組配延伸類型識別符,以用信號表示該串流識別符在該組配延伸結構中之存在。
- 如請求項23至25中任一項之音訊串流提供器,其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該已編碼音訊信號表示包含至少一個包含該串流識別符的組配結構及至少一個不包含該串流識別符的組配結構。
- 如請求項23之音訊串流提供器,其中該音訊串流提供器經組配以在由音訊訊框之一第一序列表示的一已編碼音訊資訊之一第一部分資訊之一供應與由音訊訊框之一第二序列表示的該已編碼音訊資訊之一第二部分之一供應之間進行切換,其中在音訊訊框之該第一序列之一最後訊框的一呈現之後,音訊訊框之該第二序列之一第一音訊訊框的一適當呈現需要一音訊解碼器之一重新初始化;其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得表示音訊訊框之該第二序列之該第一訊框的一音訊訊框表示包括一組配結構,該組配結構包含與音訊訊框之該第二序列相關聯的一串流識別符,其中與音訊訊框之該第二序列相關聯的該串流識別符不同於與音訊訊框之該第一序列相關聯的一串流識別符。
- 如請求項23之音訊串流提供器,其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該已編碼音訊信號表示不提供指示自音訊訊框資訊之該第一序列至音訊訊框之該第二序列之該切換的任何其他傳信資訊,惟該串流識別符除外。
- 如請求項27之音訊串流提供器,其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得音訊訊框之該第一序列與音訊訊框之該第二序列係使用不同位元率而編碼,且其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得該已編碼音訊信號表示將相同的解碼器組配資訊傳信至一音訊解碼器以用於解碼音訊訊框之該第一序列且用於解碼音訊訊框之該第二序列,惟不同的位元串流識別符除外。
- 如請求項23之音訊串流提供器,其中該音訊串流提供器經組配以在音訊訊框之一第一序列至一音訊解碼器之一供應與音訊訊框之一第二序列至該音訊解碼器之一供應之間進行切換,其中音訊訊框之該第一序列與音訊訊框之該第二序列係使用不同位元率而編碼,其中該音訊串流提供器經組配以在該音訊訊框表示包含一隨機存取資訊之一音訊訊框處在該供應音訊訊框之該第一序列與該供應音訊訊框之該第二序列之間選擇性地進行切換,同時避免在並不包含一隨機存取資訊之音訊訊框處在序列之間進行切換,其中該音訊串流提供器經組配以提供該已編碼音訊信號表示,使得在自音訊訊框之該第一序列切換至音訊訊框之該第二序列時提供的一串流識別符包括於一音訊訊框之一組配結構中。
- 如請求項30之音訊串流提供器,其中該音訊串流提供器經組配以獲得使用不同位元率而編碼的音訊訊框之多個並行序列,且其中該音訊串流提供器經組配以在將來自該等序列中的不同序列之訊框至一音訊解碼器之一供應之間進行切換,其中該音訊串流提供器經組配以使用包括於一第一音訊訊框表示之該組配結構中的在一切換之後提供的該串流識別符而將一或多個訊框與該等序列中之哪一者相關聯傳信至該音訊解碼器。
- 一種用於提供一已編碼音訊信號表示之方法,其中該方法包含提供使用編碼參數而編碼的一音訊信號之重疊或非重疊訊框之已編碼版本,作為該已編碼音訊信號表示之一部分,其中該方法包含提供描述該等編碼參數或待由一音訊解碼器使用之解碼參數的一組配結構,作為該已編碼音訊信號表示之一部分,其中該組配結構包含一串流識別符。
- 一種電腦程式,其用於在該電腦程式於一電腦上執行時執行如請求項17或請求項18或32之方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17150915 | 2017-01-10 | ||
??17150915.1 | 2017-01-10 | ||
EP17151083 | 2017-01-11 | ||
??17151083.7 | 2017-01-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201832225A TW201832225A (zh) | 2018-09-01 |
TWI673708B true TWI673708B (zh) | 2019-10-01 |
Family
ID=60943036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107100917A TWI673708B (zh) | 2017-01-10 | 2018-01-10 | 使用串流識別符之音訊解碼器、音訊編碼器、用以提供已解碼音訊信號之方法、用以提供已編碼音訊信號之方法、音訊串流、音訊串流提供器及電腦程式 |
Country Status (15)
Country | Link |
---|---|
US (3) | US11217260B2 (zh) |
EP (3) | EP3822969B1 (zh) |
JP (3) | JP6955029B2 (zh) |
KR (3) | KR20230129569A (zh) |
CN (10) | CN116631417A (zh) |
AU (6) | AU2018208522B2 (zh) |
BR (1) | BR112019014283A2 (zh) |
CA (2) | CA3049729C (zh) |
ES (2) | ES2853936T3 (zh) |
MX (6) | MX2019008250A (zh) |
PL (2) | PL3568853T3 (zh) |
SG (2) | SG11201906367PA (zh) |
TW (1) | TWI673708B (zh) |
WO (1) | WO2018130577A1 (zh) |
ZA (1) | ZA201905161B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2021001970A (es) * | 2018-08-21 | 2021-05-31 | Dolby Int Ab | Métodos, aparatos y sistemas para generación, transporte y procesamiento de tramas de ejecución inmediata (ipfs). |
CN115668365A (zh) * | 2020-05-20 | 2023-01-31 | 杜比国际公司 | 用于统一语音和音频解码改进的方法和装置 |
CN113473170B (zh) * | 2021-07-16 | 2023-08-25 | 广州繁星互娱信息科技有限公司 | 直播音频处理方法、装置、计算机设备及介质 |
WO2023021137A1 (en) * | 2021-08-19 | 2023-02-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for providing an encoded representation of an audio information, computer program and encoded audio representation using immediate playout frames |
US20230117444A1 (en) * | 2021-10-19 | 2023-04-20 | Microsoft Technology Licensing, Llc | Ultra-low latency streaming of real-time media |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2863386A1 (en) * | 2013-10-18 | 2015-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3765622B2 (ja) * | 1996-07-09 | 2006-04-12 | ユナイテッド・モジュール・コーポレーション | オーディオ符号化復号化システム |
US6904089B1 (en) * | 1998-12-28 | 2005-06-07 | Matsushita Electric Industrial Co., Ltd. | Encoding device and decoding device |
EP1427252A1 (en) * | 2002-12-02 | 2004-06-09 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for processing audio signals from a bitstream |
KR100546758B1 (ko) * | 2003-06-30 | 2006-01-26 | 한국전자통신연구원 | 음성의 상호부호화시 전송률 결정 장치 및 방법 |
GB0326263D0 (en) * | 2003-11-11 | 2003-12-17 | Nokia Corp | Speech codecs |
WO2006025819A1 (en) * | 2004-08-25 | 2006-03-09 | Thomson Licensing | Reducing channel changing time for digital video inputs |
JP4575129B2 (ja) * | 2004-12-02 | 2010-11-04 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよびプログラム記録媒体 |
KR101215615B1 (ko) * | 2006-01-10 | 2012-12-26 | 삼성전자주식회사 | 동일 채널 내에서 서로 다른 코덱을 이용하여 부호화된 비디오 및 오디오 데이터 스트림의 재생을 위한 코덱 변경 방법 및 장치 |
US7697537B2 (en) * | 2006-03-21 | 2010-04-13 | Broadcom Corporation | System and method for using generic comparators with firmware interface to assist video/audio decoders in achieving frame sync |
EP2054876B1 (en) * | 2006-08-15 | 2011-10-26 | Broadcom Corporation | Packet loss concealment for sub-band predictive coding based on extrapolation of full-band audio waveform |
WO2009063467A2 (en) * | 2007-11-14 | 2009-05-22 | Ubstream Ltd. | System and method for adaptive rate shifting of video/audio streaming |
US8223682B2 (en) * | 2008-07-08 | 2012-07-17 | Lg Electronics Inc. | Transmitting/receiving system and method of processing data in the transmitting/receiving system |
US8117039B2 (en) * | 2008-12-15 | 2012-02-14 | Ericsson Television, Inc. | Multi-staging recursive audio frame-based resampling and time mapping |
KR101616054B1 (ko) * | 2009-04-17 | 2016-04-28 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
US8948241B2 (en) | 2009-08-07 | 2015-02-03 | Qualcomm Incorporated | Signaling characteristics of an MVC operation point |
AR077680A1 (es) * | 2009-08-07 | 2011-09-14 | Dolby Int Ab | Autenticacion de flujos de datos |
PL2491553T3 (pl) * | 2009-10-20 | 2017-05-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder audio, dekoder audio, sposób kodowania informacji audio, sposób dekodowania informacji audio i program komputerowy wykorzystujący iteracyjne zmniejszania rozmiaru przedziału |
SI2510515T1 (sl) * | 2009-12-07 | 2014-06-30 | Dolby Laboratories Licensing Corporation | Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije |
TWI443646B (zh) * | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
EP2610865B1 (en) * | 2010-08-23 | 2014-07-23 | Panasonic Corporation | Audio signal processing device and audio signal processing method |
US8711736B2 (en) * | 2010-09-16 | 2014-04-29 | Apple Inc. | Audio processing in a multi-participant conference |
US8613038B2 (en) * | 2010-10-22 | 2013-12-17 | Stmicroelectronics International N.V. | Methods and apparatus for decoding multiple independent audio streams using a single audio decoder |
PL2676264T3 (pl) * | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
KR101742136B1 (ko) | 2011-03-18 | 2017-05-31 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치 |
US8982942B2 (en) * | 2011-06-17 | 2015-03-17 | Microsoft Technology Licensing, Llc | Adaptive codec selection |
EP2727369B1 (en) * | 2011-07-01 | 2016-10-05 | Dolby Laboratories Licensing Corporation | Synchronization and switchover methods and systems for an adaptive audio system |
WO2013058626A2 (ko) * | 2011-10-20 | 2013-04-25 | 엘지전자 주식회사 | 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼 |
US9183842B2 (en) * | 2011-11-08 | 2015-11-10 | Vixs Systems Inc. | Transcoder with dynamic audio channel changing |
JP6126006B2 (ja) * | 2012-05-11 | 2017-05-10 | パナソニック株式会社 | 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 |
WO2013175736A1 (ja) * | 2012-05-25 | 2013-11-28 | パナソニック株式会社 | 動画像符号化方法、動画像符号化装置、動画像復号方法、動画像復号装置、および、動画像符号化復号装置 |
US10171540B2 (en) * | 2012-09-07 | 2019-01-01 | High Sec Labs Ltd | Method and apparatus for streaming video security |
EP2720222A1 (en) * | 2012-10-10 | 2014-04-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns |
TR201802631T4 (tr) | 2013-01-21 | 2018-03-21 | Dolby Laboratories Licensing Corp | Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US10021419B2 (en) * | 2013-07-12 | 2018-07-10 | Qualcomm Incorported | Rice parameter initialization for coefficient level coding in video coding process |
GB2526128A (en) * | 2014-05-15 | 2015-11-18 | Nokia Technologies Oy | Audio codec mode selector |
WO2015180866A1 (en) | 2014-05-28 | 2015-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Data processor and transport of user control data to audio decoders and renderers |
WO2015194187A1 (en) * | 2014-06-20 | 2015-12-23 | Sharp Kabushiki Kaisha | Harmonized palette coding |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
US10008214B2 (en) * | 2015-09-11 | 2018-06-26 | Electronics And Telecommunications Research Institute | USAC audio signal encoding/decoding apparatus and method for digital radio services |
-
2018
- 2018-01-10 ES ES18700161T patent/ES2853936T3/es active Active
- 2018-01-10 KR KR1020237028751A patent/KR20230129569A/ko not_active Application Discontinuation
- 2018-01-10 CN CN202310552014.3A patent/CN116631417A/zh active Pending
- 2018-01-10 CN CN202310551672.0A patent/CN116631414A/zh active Pending
- 2018-01-10 AU AU2018208522A patent/AU2018208522B2/en active Active
- 2018-01-10 SG SG11201906367PA patent/SG11201906367PA/en unknown
- 2018-01-10 EP EP20206797.1A patent/EP3822969B1/en active Active
- 2018-01-10 CN CN202310551668.4A patent/CN116631413A/zh active Pending
- 2018-01-10 SG SG10202100336WA patent/SG10202100336WA/en unknown
- 2018-01-10 CN CN202310863326.6A patent/CN117037807A/zh active Pending
- 2018-01-10 CN CN202310858584.5A patent/CN117037804A/zh active Pending
- 2018-01-10 WO PCT/EP2018/050575 patent/WO2018130577A1/en active Application Filing
- 2018-01-10 CN CN202310552620.5A patent/CN116631416A/zh active Pending
- 2018-01-10 EP EP18700161.5A patent/EP3568853B1/en active Active
- 2018-01-10 BR BR112019014283-5A patent/BR112019014283A2/pt active Search and Examination
- 2018-01-10 ES ES20206797T patent/ES2953832T3/es active Active
- 2018-01-10 PL PL18700161T patent/PL3568853T3/pl unknown
- 2018-01-10 EP EP23180164.8A patent/EP4235662A3/en active Pending
- 2018-01-10 CA CA3049729A patent/CA3049729C/en active Active
- 2018-01-10 JP JP2019557682A patent/JP6955029B2/ja active Active
- 2018-01-10 CN CN202310552328.3A patent/CN116631415A/zh active Pending
- 2018-01-10 CN CN202310861353.XA patent/CN117037805A/zh active Pending
- 2018-01-10 KR KR1020197023563A patent/KR102315774B1/ko active IP Right Grant
- 2018-01-10 TW TW107100917A patent/TWI673708B/zh active
- 2018-01-10 CN CN201880017357.7A patent/CN110476207B/zh active Active
- 2018-01-10 CA CA3206050A patent/CA3206050A1/en active Pending
- 2018-01-10 MX MX2019008250A patent/MX2019008250A/es unknown
- 2018-01-10 CN CN202310861784.6A patent/CN117037806A/zh active Pending
- 2018-01-10 PL PL20206797.1T patent/PL3822969T3/pl unknown
- 2018-01-10 KR KR1020217033386A patent/KR102572557B1/ko active IP Right Grant
-
2019
- 2019-07-09 MX MX2022015783A patent/MX2022015783A/es unknown
- 2019-07-09 MX MX2022015786A patent/MX2022015786A/es unknown
- 2019-07-09 MX MX2022015785A patent/MX2022015785A/es unknown
- 2019-07-09 US US16/506,863 patent/US11217260B2/en active Active
- 2019-07-09 MX MX2022015782A patent/MX2022015782A/es unknown
- 2019-07-09 MX MX2022015787A patent/MX2022015787A/es unknown
- 2019-08-05 ZA ZA2019/05161A patent/ZA201905161B/en unknown
-
2020
- 2020-10-03 AU AU2020244609A patent/AU2020244609B2/en active Active
-
2021
- 2021-09-30 JP JP2021161136A patent/JP7295190B2/ja active Active
- 2021-11-30 US US17/538,847 patent/US11837247B2/en active Active
-
2022
- 2022-03-02 AU AU2022201458A patent/AU2022201458B2/en active Active
-
2023
- 2023-06-08 JP JP2023094876A patent/JP2023126775A/ja active Pending
- 2023-10-23 US US18/492,623 patent/US20240062768A1/en active Pending
-
2024
- 2024-03-07 AU AU2024201519A patent/AU2024201519A1/en active Pending
- 2024-03-07 AU AU2024201516A patent/AU2024201516A1/en active Pending
- 2024-03-07 AU AU2024201507A patent/AU2024201507A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2863386A1 (en) * | 2013-10-18 | 2015-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI673708B (zh) | 使用串流識別符之音訊解碼器、音訊編碼器、用以提供已解碼音訊信號之方法、用以提供已編碼音訊信號之方法、音訊串流、音訊串流提供器及電腦程式 | |
CN110444218B (zh) | 用于编码和解码音频数据的装置以及方法 | |
RU2783228C2 (ru) | Декодер звукового сигнала, кодер звукового сигнала, способ выдачи декодированного звукового сигнала, способ выдачи кодированного звукового сигнала, звуковой поток, поставщик звукового потока и компьютерная программа, использующие идентификатор потока |