TWI829956B - 解碼聲音或音場的壓縮高階環境立體聲(hoa)聲音表徵的方法、設備及非暫態電腦可讀儲存媒體 - Google Patents
解碼聲音或音場的壓縮高階環境立體聲(hoa)聲音表徵的方法、設備及非暫態電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI829956B TWI829956B TW109126268A TW109126268A TWI829956B TW I829956 B TWI829956 B TW I829956B TW 109126268 A TW109126268 A TW 109126268A TW 109126268 A TW109126268 A TW 109126268A TW I829956 B TWI829956 B TW I829956B
- Authority
- TW
- Taiwan
- Prior art keywords
- side information
- layer
- sound
- representation
- enhancement
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000001419 dependent effect Effects 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 26
- 230000010076 replication Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 431
- 230000006837 decompression Effects 0.000 description 35
- 230000005540 biological transmission Effects 0.000 description 24
- 230000006835 compression Effects 0.000 description 19
- 238000007906 compression Methods 0.000 description 19
- 239000004615 ingredient Substances 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000002708 enhancing effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Compositions Of Oxide Ceramics (AREA)
Abstract
本文件相關於聲音或音場之壓縮聲音表徵的分層編碼方法。該壓縮聲音表徵包含基本壓縮聲音表徵,其包含複數個成分、基本側資訊,用於將該基本壓縮聲音表徵解碼成該聲音或音場的基本重構聲音表徵、及增強側資訊,包括用於改善該基本重構聲音表徵的參數。該方法包含將該複數個成分次分割為複數個成分群組並將該複數個群組各者指派至複數個分層的個別一者,該群組數目對應於該層數目,且該複數個層包括基層及一或多個增強分層、將該基本側資訊加至該基層、及從該增強側資訊決定增強側資訊的複數個部分並將增強側資訊的該複數個部分各者指派至該複數個層的個別一者,其中增強側資訊的各部分包括用於改善可從包括在該個別層及低於該個別層之任何層中的資料得到的重構聲音表徵的參數。本文件更相關於解碼聲音或音場之壓縮聲音表徵的方法,其中該壓縮聲音表徵編碼在包括基層及一或多個增強分層的複數個分層中,以及相關於用於壓縮聲音表徵之分層編碼的編碼器及解碼器。
Description
本文件相關於用於分層音訊編碼的方法及設備。本文件特別相關於用於壓縮聲音(或音場)表徵,例如,高階環境立體聲(HOA)聲音(或音場)表徵,之分層音訊編碼的方法及設備。
針對具有時間變化條件之聲音(或音場)透過傳輸通道的串流,分層編碼係使接收聲音表徵的品質適應於傳輸條件,並特別適於避免不期望之信號漏失的方法。
針對分層編碼,常將聲音(或音場)表徵次分割為相對小尺寸的高優先度基層及具有遞減優先度及任意尺寸的額外增強層。典型地將各增強層假設成包含遞增資訊以補足所有較低層的資訊,以改善聲音(或音場)表徵的品質。用於個別層之傳輸的錯誤保護量係基於彼等的優先度
受控制。基層特別設有高錯誤保護,由於其之低尺寸,此係合理且實惠的。
然而,對用於特殊種類之聲音或音場的壓縮表徵(的延伸版本),諸如,壓縮HOA聲音或音場表徵,的分層編碼設計有需求。
本文件解決上述問題。特別描述用於壓縮聲音及音場表徵之分層編碼的方法及編碼器/解碼器。
根據樣態,描述分層編碼聲音或音場之壓縮聲音表徵的方法。該壓縮聲音表徵可包括基本壓縮聲其表徵,其包括複數個成分。該複數個成分可為補充成分。壓縮聲音表徵可更包括用於將基本壓縮聲音表徵解碼為聲音或音場之基本重構聲音表徵的基本側資訊。該壓縮聲音表徵可更包括增強側資訊,其包括用於改善(例如,增強)基本重構聲音表徵的參數。該方法可包括將該複數個成分次分割(例如,分組)為複數個成分群組。該方法可更包括將複數個群組各者指派(例如,加)至複數個分層的個別一者。該指派可指示個別群組及層之間的對應。可將指派給個別層的成分稱為包括在該層中。群組數目可對應於(例如,等於)層數目。該複數個層可包括基層及一或多個增強分層。可排序該複數個分層,從基層、經由第一增強層、第二增強層等、直到全體最高增強層(全體最高層)。該方法可更包括將基本側資訊加至基層(例如,針
對傳輸或儲存的目的,例如,將基本側資訊包括在基層中,或將基本側資訊配置至該基層)。該方法可更包括從該增強側資訊決定增強側資訊的複數個部分。該方法可更包括將增強側資訊的該複數個部分各者指派(例如,加)至該複數個層的個別一者。增強側資訊的各部分可包括用於改善可從包括(例如,指派或加至)在個別層及低於該個別層的任何層中之資料得到的重構(例如,解壓縮)聲音表徵的參數。分層編碼可針對透過傳輸通道傳輸的目的或針對儲存在適當儲存媒體中的目的實施,諸如,CD、DVD、藍光光碟TM。
如上文所述地組態,所提議的方法致能將分層編碼有效率地施加至包含複數個成分以及具有如上文設定之性質的基本及增強側資訊(例如,獨立基本側資訊及增強側資訊)的壓縮聲音表徵。所提議的方法特別確保各層包括用於從包括在達到關注層之任何層中的成分重構重構聲音表徵的合適側資訊。其中將達到關注層的層理解為,例如,包括基層、第一增強層、第二增強層等、直到該關注層。因此,與實際最高可使用層(例如,低於未有效地接收之最低層的層,使得已有效地接收低於最高可使用層的所有層及該最高可使用層自身)無關,即使重構聲音表徵可與完整(例如,全部)聲音表徵不同,會將解碼器致能以改善或增強重構聲音表徵。特別地,與實際最高可用層無關,解碼器僅針對單一層(亦即,針對最高可使用層)解碼增強側資訊的酬載即可,以改善或增強其可在包括在達
到實際最高可使用層之層中的所有成分之基礎上得到的重構聲音表徵。亦即,針對各時間區間(例如,框),僅必需解碼增強側資訊的單一酬載。另一方面,所提議的方法允許充分利用其可在施用分層解碼時實現之降低所需帶寬的優點。
在實施例中,基本壓縮聲音表徵的成分可對應於單聲道信號(例如,運輸信號或單聲道運輸信號)。該單聲道信號可代表HOA表徵之主要聲音信號或係數序列的任一者。可將單聲道信號量化。
在實施例中,基本側資訊可包括與其他成分無關地獨立地指定該複數個成分的一或多者之解碼(例如,解壓縮)的資訊。例如,基本側資訊可與其他單聲道信號無關地代表與獨立單聲道信號有關的側資訊。因此,基本側資訊可稱為獨立基本側資訊。
在實施例中,增強側資訊可代表增強側資訊。增強側資訊可包括用於改善(例如,增強)可從基本壓縮聲音表徵及基本側資訊得到的基本重構聲音表徵之基本壓縮聲音表徵的預測參數。
在實施例中,該方法可更包括產生用於該複數層之資料(例如,指派或加至個別層或另外包括在個別層中的資料)的傳輸的運輸串流。基本層可具有最高的傳輸優先度且增強分層可具有遞減的傳輸優先度。亦即,傳輸的優先度可從基層遞減至第一增強層,從第一增強層遞減至第二增強層,並依此類推。用於該複數層之資料的傳輸的錯誤
保護量可根據傳輸的個別優先度受控制。因此,能確保可靠地傳輸至少若干較低層,同時在另一方面藉由不施用過度錯誤保護至較高層而降低全體所需帶寬。
在實施例中,該方法可更包括針對複數層各者產生包括個別層之資料的運輸層封包。例如,針對各時間區間(例如,框),可對複數層各者產生個別運輸層封包。
在實施例中,壓縮聲音表徵可更包括用於將基本壓縮聲音表徵解碼為基本重構聲音表徵的額外基本側資訊。額外基本側資訊可包括指定相依於其他個別成分之複數個成分的一或多者之解碼的資訊。該方法可更包括將額外基本側資訊分解為額外基本側資訊的複數個部分。該方法可更包括將額外基本側資訊的部分加至基層(例如,針對傳輸或儲存的目的,例如,將額外基本側資訊的部分包括在基層中、或將額外基本側資訊的部分配置至基層)。額外基本側資訊的各部分可對應於個別層並可包括指定指派給(僅)相依於指派給該個別層及低於該個別層之任何層的其他個別成分之該個別層的一或多個成分之解碼的資訊。亦即,額外基本側資訊的各部分指定該額外基本側資訊的該部分所對應之該個別層中的成分,而無須參考指派給比該個別層更高之層的任何其他成分。
如此組態,所提議的方法藉由將所有部分加至基層而避免額外基本側資訊的片段化。換言之,將額外基本側資訊的所有部分包括在基層中。額外基本側資訊的分解對各層確保額外基本側資訊的部分不需要較高層中之成分的知
識即可用。因此,與實際最高可使用層無關,解碼器將包括在達到最高可使用層之層中的額外基本側資訊解碼即可。
在實施例中,額外基本側資訊可包括指定與其他成分相依之該複數個成分的一或多者之解碼(例如,解壓縮)的資訊。例如,額外基本側資訊可代表與相依於其他單聲道信號之獨立單聲道信號有關的側資訊。因此,額外基本側資訊可稱為相依基本側資訊。
在實施例中,壓縮聲音表徵可對連續時間區間處理,例如,相等尺寸的時間區間。連續時間區間可係框。因此,該方法可在框基礎上操作,亦即,壓縮聲音表徵可用逐框方式編碼。壓縮聲音表徵可對各連續時間區間(例如,對各框)可用。亦即,壓縮聲音表徵已藉由其得到的壓縮操作可在框基礎上操作。
在實施例中,該方法可更包括產生組態資訊,其為各層指示指派給該層之基本壓縮聲音表徵的成分。因此,解碼器能迅速地存取解碼所需的資訊而無須不必要的剖析接收的資料酬載。
根據另一樣態,描述分層編碼聲音或音場之壓縮聲音表徵的方法。該壓縮聲音表徵可包括基本壓縮聲其表徵,其包括複數個成分。該複數個成分可係補充成分。該壓縮聲音表徵可更包括用於將基本壓縮聲音表徵解碼為聲音或音場之基本重構聲音表徵的基本側資訊(例如,獨立基本側資訊)及第三資訊(例如,相依基本側資訊)。基本側
資訊可包括與其他成分無關地獨立地指定該複數個成分的一或多者之解碼的資訊。額外基本側資訊可包括指定相依於其他個別成分之複數個成分的一或多者之解碼的資訊。該方法可包括將該複數個成分次分割(例如,分組)為複數個成分群組。該方法可更包括將複數個群組各者指派(例如,加)至複數個分層的個別一者。該指派可指示個別群組及層之間的對應。可將指派給個別層的成分稱為包括在該層中。群組數目可對應於(例如,等於)層數目。該複數個層可包括基層及一或多個增強分層。該方法可更包括將基本側資訊加至基層(例如,針對傳輸或儲存的目的,例如,將基本側資訊包括在基層中,或將基本側資訊配置至該基層)。該方法可更包括將額外基本側資訊分解為額外基本側資訊的複數個部分及將額外基本側資訊的部分加至基層(例如,針對傳輸或儲存的目的,例如,將額外基本側資訊的部分包括在基層中、或將額外基本側資訊的部分配置至基層)。額外基本側資訊的各部分可對應於個別層並包括指定指派給相依於指派給該個別層及低於該個別層之任何層的其他個別成分之該個別層的一或多個成分之解碼的資訊。
如此組態,所提議的方法為各層確保適當的額外基本側資訊可用於解碼包括在達到該個別層之任何層中的成分而無須任何較高層的有效接收或解碼(或一般而言,其知識)。在壓縮HOA表徵的情形中,所提議的方法確保在向量編碼模式中,合適的V向量可用於屬於達到最高可使
用層之層的所有成分。所提議的方法特別排除不將對應於較高層中的成分之V向量的元素明顯發訊的情形。因此,包括在達到最高可使用層之層中的資訊對解碼(例如,解壓縮)屬於到達最高可使用層之層中的任何成分係充分的。因此,即使較高層可尚未為解碼器有效地接收,確保較低層之個別重構HOA表徵的適當解壓縮。另一方面,所提議的方法允許充分利用其可在施用分層解碼時實現之降低所需帶寬的優點。
此樣態的實施例可相關於上述樣態的實施例。
根據另一樣態,描述分層編碼聲音或音場之壓縮聲音表徵的方法。該壓縮聲音表徵可已編碼在複數個分層中。該複數個分層可包括基層及一或多個增強分層。複數個層可具有指派至其的聲音或音場之基本壓縮聲音表徵的成分。換言之,該複數個層可包括該基本壓縮側資訊的成分。該等成分可指派給個別成分群組中的個別層。該複數個成分可係補充成分。基層可包括用於解碼基本壓縮聲音表徵的基本側資訊。各層可包括其包括用於改善可從包括在該個別層及低於該個別層之任何層中的資料得到之基本重構聲音表徵的參數之增強側資訊的部分。該方法可包括接收分別對應於複數個分層的資料酬載。該方法可更包括決定指示待用於將基本壓縮聲音表徵解碼為聲音或音場之基本重構聲音表徵的複數個層之中的最高可使用層的第一層索引。該方法可更包括使用基本側資訊從指派給該最高可使用層及低於該最高可使用層之任何層的成分得到基本
重構聲音表徵。該方法可更包括決定第二層索引,其指示增強側資訊的何部分應用於改善(例如,增強)基本重構聲音表徵。該方法可包括參考第二層索引從該基本重構聲音表徵得到聲音或音場的重構聲音表徵。
如此組態,所提議的方法使用最佳可能範圍的可用(例如,有效地接收的)資訊確保重構聲音表徵具有最佳品質。
在實施例中,基本壓縮聲音表徵的成分可對應於單聲道信號(例如,單聲道運輸信號)。該單聲道信號可代表HOA表徵之主要聲音信號或係數序列的任一者。可將單聲道信號量化。
在實施例中,基本側資訊可包括與其他成分無關地獨立地指定該複數個成分的一或多者之解碼(例如,解壓縮)的資訊。例如,基本側資訊可與其他單聲道信號無關地代表與獨立單聲道信號有關的側資訊。因此,基本側資訊可稱為獨立基本側資訊。
在實施例中,增強側資訊可代表增強側資訊。增強側資訊可包括用於改善(例如,增強)可從基本壓縮聲音表徵及基本側資訊得到的基本重構聲音表徵之基本壓縮聲音表徵的預測參數。
在實施例中,該方法可更包括為各層決定該個別層是否已有效地接收。該方法可更包括將該第一層索引決定為緊接在尚未有效地接收的最低層之下的層的層索引。
在實施例中,決定該第二層索引可包含決定該第二層
索引等於該第一層索引,或將索引值決定為其指示當得到重構聲音表徵時不使用任何增強側資訊的第二層索引。在後一情形中,該重構聲音表徵可等於基本重構聲音表徵。
在實施例中,資料酬載可對連續時間區間接收及處理,例如,相等尺寸的時間區間。連續時間區間可係框。因此,該方法可在框基礎上操作。該方法可更包括,若用於連續時間區間的壓縮聲音表徵能彼此無關地解碼,決定第二層索引等於該第一層索引。
在實施例中,資料酬載可對連續時間區間接收及處理,例如,相等尺寸的時間區間。連續時間區間可係框。因此,該方法可在框基礎上操作。該方法可針對連續時間區間之中的指定時間區間更包括若用於進續時間區間的壓縮聲音表徵不能彼此無關地解碼,為各層決定個別層是否已有效地接收。該方法可更包括將指定時間區間的第一層索引決定為領先指定時間區間之時間區間的第一層索引及緊接在尚未有效地接收的最低層之下的層的層索引的較小一者。
在實施例中,該方法可針對指定時間區間更包括若用於進續時間區間的壓縮聲音表徵不能彼此無關地解碼,決定指定時間區間的第一層索引是否等於前導時間區間的第一層索引。該方法可更包括,若指定時間區間的第一層索引等於前導時間區間的第一層索引,決定指定時間區間的第二層索引等於指定時間區間的第一層索引。該方法可更包括若指定時間區間的第一層索引不等於前導時間區間的
第一層索引,將索引值決定為指示當得到重構聲音表徵時不使用任何增強側資訊的第二層索引。
在實施例中,該基層可包括對應於個別層並包括指定指派給相依於指派給該個別層及低於該個別層之任何層的其他成分之該個別層的成分之中的一或多個成分之解碼的資訊之額外基本側資訊的至少一部分。該方法可更包括,針對額外基本側資訊的各部分,藉由參考指派給其個別層及低於該個別層之任何層的成分解碼額外基本側資訊的部分。該方法可更包括藉由參考指派給該最高可使用層及最高可使用層及該個別層之間的任何層之成分校正額外基本側資訊的部分。使用基本側資訊及從對應於達到該最高可使用層之層的額外基本側資訊之部分得到的額外基本側資訊之校正的部分,可從指派給最高可使用層及低於該最高可使用層之任何層的成分得到基本重構聲音表徵。
在實施例中,額外基本側資訊可包括指定與其他成分相依之該複數個成分的一或多者之解碼(例如,解壓縮)的資訊。例如,額外基本側資訊可代表與相依於其他單聲道信號之獨立單聲道信號有關的側資訊。因此,額外基本側資訊可稱為相依基本側資訊。
根據另一樣態,描述解碼聲音或音場之壓縮聲音表徵的方法。該壓縮聲音表徵可已編碼在複數個分層中。該複數個分層可包括基層及一或多個增強分層。複數個層可具有指派至其的聲音或音場之基本壓縮聲音表徵的成分。換言之,該複數個層可包括該基本壓縮側資訊的成分。該等
成分可指派給個別成分群組中的個別層。該複數個成分可係補充成分。基層可包括用於解碼基本壓縮聲音表徵的基本側資訊。該基層可更包括對應於個別層並包括指定指派給相依於指派給該個別層及低於該個別層之任何層的其他成分之該個別層的成分之中的一或多個成分之解碼的資訊之額外基本側資訊的至少一部分。該方法可包括接收分別對應於複數個分層的資料酬載。該方法可更包括決定指示待用於將基本壓縮聲音表徵解碼為聲音或音場之基本重構聲音表徵的複數個層之中的最高可使用層的第一層索引。該方法可更包括,針對額外基本側資訊的各部分,藉由參考指派給其個別層及低於該個別層之任何層的成分解碼額外基本側資訊的部分。該方法可更包括,針對額外基本側資訊的各部分,藉由參考指派給最高可使用層及該最高可使用層及該個別層之間的任何層的成分校正額外基本側資訊的部分。使用基本側資訊及從對應於達到該最高可使用層之層的額外基本側資訊之部分得到的額外基本側資訊之校正的部分,可從指派給最高可使用層及低於該最高可使用層之任何層的成分得到基本重構聲音表徵。該方法可更包含決定等於第一層索引或指示在解碼期間省略增強側資訊的第二層索引。
如此組態,所提議的方法確保最終用於解碼基本壓縮聲音表徵的額外基本側資訊不包括冗餘元件,從而使基本壓縮聲音表徵的實際解碼更有效率地呈現。
此樣態的實施例可相關於上述樣態的實施例。
根據另一樣態,描述用於聲音或音場的壓縮聲音表徵之分層編碼的編碼器。該壓縮聲音表徵可包括基本壓縮聲其表徵,其包括複數個成分。該複數個成分可係補充成分。壓縮聲音表徵可更包括用於將基本壓縮聲音表徵解碼為聲音或音場之基本重構聲音表徵的基本側資訊。該壓縮聲音表徵可更包括增強側資訊,其包括用於改善(例如,增強)基本重構聲音表徵的參數。該編碼器可包括組態成實施根據上文最先提及之樣態及上文第二個提及之樣態的方法之部分或全部方法步驟的處理器。
根據另一樣態,描述解碼聲音或音場之壓縮聲音表徵的解碼器。該壓縮聲音表徵可已編碼在複數個分層中。該複數個分層可包括基層及一或多個增強分層。複數個層可具有指派至其的聲音或音場之基本壓縮聲音表徵的成分。換言之,該複數個層可包括該基本壓縮側資訊的成分。該等成分可指派給個別成分群組中的個別層。該複數個成分可係補充成分。基層可包括用於解碼基本壓縮聲音表徵的基本側資訊。各層可包括其包括用於改善(例如,增強)可從包括在該個別層及低於該個別層之任何層中的資料得到之基本重構聲音表徵的參數之增強側資訊的部分。該解碼器可包括組態成實施根據上文第三個提及之樣態及上文第四個提及之樣態的方法之部分或全部方法步驟的處理器。
根據其他樣態,設備及系統相關於解碼聲音或音場的壓縮高階環境立體聲(HOA)聲音表徵。該設備可具有接
收器,該接收器組態成或該方法可接收包含對應於包括基層及一或多個增強分層的複數個分層之壓縮HOA表徵的位元串流。該複數個層具有指派至其的聲音或音場之基本壓縮聲音表徵的成分,該成分被指派給個別成分群組中的個別層。該設備可具有解碼器,該解碼器組態成或該方法可基於與該基層關聯的基本側資訊並基於與該一或多個增強分層關聯的增強側資訊解碼該壓縮HOA表徵。該基本側資訊可包括與第一獨立單聲道信號有關的基本獨立側資訊,該第一獨立單聲道信號將與其他單聲道信號無關地解碼。該一或多個增強分層各者可包括其包括用於改善可從包括在該個別層及低於該個別層之任何層中的資料得到之基本重構聲音表徵的參數之增強側資訊的部分。
該基本獨立側資訊可指示該第一獨立單聲道信號代表具有入射方向的有向信號。該基本側資訊可更包括與第二獨立單聲道信號有關的基本相依側資訊,該第二獨立單聲道信號將與其他單聲道信號相依地解碼。該基本相依側資訊可包括在該音場內有向地分佈之基於向量的信號,其中該有向分佈係藉由向量指定。將該向量的分量設定成零且不係壓縮向量表徵的一部分。
該基本壓縮聲音表徵的成分可對應於代表HOA表徵的主要聲音信號或係數序列之任一者的單聲道信號。該位元串流包括分別對應於複數個分層的資料酬載。該增強側資訊可包括與至少下列一者有關的參數:空間預測、次頻帶有向信號合成、及參數環境複製。該增強側資訊可包括
其允許從有向信號預測該聲音或音場之缺少部分的資訊。可更為各層決定該個別層是否已有效地接收及緊接在尚未有效地接收的最下層以下之層的層索引。
根據另一實施樣態,描述軟體程式。該軟體程式可能適於在處理器上執行且當在計算裝置上實行時適於實施概述於本文件中的部分或全部方法步驟。
根據另一樣態,描述儲存媒體。該儲存媒體可包含適於在處理器上執行且當在計算裝置上實行時適於實施概述於本文件中之部分或全部方法步驟的軟體程式。
如熟悉本技術的人士將理解的,也將相關於任何上述樣態或其實施例產生的敘述施用至其他個別樣態或其實施例。為了簡明的原因,已省略各及每個樣態或實施例的此等重複敘述。
包括如本文件所概述之彼等較佳實施例的方法及設備可單獨或與揭示在此文件中的其他方法及系統組合使用。此外,於本文件中概述之方法及設備的所有樣態可任意地組合。申請專利範圍的特性可特別以任意方式彼此組合。
方法步驟及設備特性可用許多方式互換。如熟悉本技術的人士將理解的,所揭示方法的細節能特別實作為適用於執行該方法的部分或全部步驟的設備,且反之亦然。
2100:完整壓縮聲音表徵
2100':最終增強聲音(或音場)表徵
2110-1、2110-J:成分
2120:獨立基本側資訊
2130-1、2130-M、2140-1、2140-M:部分
2200:基層封包
2300-1、2300-(M-1):增強層封包
4100、6000:解碼器
4200:基本表徵解壓縮處理單元
4300:增強表徵解壓縮處理單元
5000:編碼器
5010:成分次分割單元
5020:成分指派單元
5030:基本側資訊指派單元
5040:增強側資訊分區單元
5050:增強側資訊指派單元
5100、6100:處理器
5200、6200:記憶體
6010:接收單元
6020:第一層索引決定單元
6030:基本重構單元
6040:第二層索引決定單元
6050:增強重構單元
本發明參考隨附圖式以例示方式於下文解釋,其中:圖1係描繪根據本揭示發明之實施例的分層編碼方法
之範例的流程圖;圖2係示意地描繪根據本揭示發明之實施例的編碼器級之範例的方塊圖;圖3係根據本揭示發明之實施例描繪解碼已編碼為複數個分層的聲音或音場之壓縮聲音表徵的方法之範例的流程圖;圖4A及圖4B係示意地描繪根據本揭示發明之實施例的解碼器級之範例的方塊圖;圖5係示意地描繪根據本揭示發明的實施例之編碼器的硬體實作之範例的方塊圖;及圖6係示意地描繪根據本揭示發明的實施例之解碼器的硬體實作之範例的方塊圖。
首先,將描述可將本揭示發明的方法及編碼器/解碼器應用至其的壓縮聲音(或音場)表徵(之後為了簡潔而稱為壓縮聲音表徵)。通常,完整壓縮聲音(或音場)表徵(之後為了簡潔而稱為完整壓縮聲音表徵)可包含下列三個成分(例如,由其組成):基本壓縮聲音(音場)表徵(之後為了簡潔而稱為基本壓縮聲音表徵)、基本側資訊、及增強側資訊。
基本壓縮聲音表徵自身包含許多成分(例如,補充成分)(例如,由其組成)。基本壓縮聲音表徵可特別處理最大百分比的完整壓縮聲音表徵。基本壓縮聲音表徵可由
代表主要聲音信號或原始HOA表徵的係數序列之任一者的單聲道運輸信號組成。
基本側資訊係必要的,以解碼基本壓縮聲音表徵並可假設其尺寸遠小於基本壓縮聲音表徵。其可構成其之最大部分的不相交部分,各部分指定基本壓縮聲音表徵之唯一一個特定成分的解壓縮。基本側資訊可包含可稱為獨立基本側資訊的第一部分及可稱為額外基本側資訊的第二部分。
第一及第二部分二者,亦即獨立基本側資訊及額外基本側資訊,可指定基本壓縮聲音表徵之特定成分的解壓縮。第二部分係選擇性的並可省略。在此情形中,可將壓縮聲音表徵稱為包含第一部分(例如,基本側資訊)。
第一部分(例如,基本側資訊)可與其他(補充)成分無關地包含描述基本壓縮聲音表徵之獨立(補充)成分的側資訊。特別係第一部分(例如,基本側資訊)可與其他成分無關地獨立地指定複數個成分之一或多者的解碼。因此,第一部分可稱為獨立基本側資訊。
第二(選擇性)部分可包含也稱為額外基本側資訊的側資訊,可描述與其他(補充)成分相依之基本壓縮聲音表徵的獨立(補充)成分。此第二部分也可稱為相依基本側資訊。該相依性可特別具有下列性質:
- 用於基本壓縮聲音表徵之各獨立(補充)成分的相依基本側資訊可在沒有其他特定(補充)成分包含在基本壓縮聲音表徵中時達到其最大範圍。
- 在將額外特定(補充)成分加至基本壓縮聲音表徵的情形中,用於所考慮之獨立(補充)成分的相依基本側資訊可變為原始相依基本側資訊的子集,因此減少其尺寸。
增強側資訊也係選擇性的。可用於改善或增強(例如,參數地改善或增強)基本壓縮聲音表徵。也可假設其尺寸遠小於基本壓縮聲音表徵的尺寸。
因此,在實施例中,壓縮向量表徵可包含其包含複數個成分的基本壓縮聲音表徵、用於將基本壓縮聲音表徵解碼(例如,解壓縮)為聲音或音場之基本重構聲音表徵的基本側資訊、及包括用於改善或增強(例如,參數地改善或增強)基本重構聲音表徵之參數的增強側資訊。壓縮聲音表徵可更包含用於將基本壓縮聲音表徵解碼(例如,解壓縮)為基本重構聲音表徵的額外基本側資訊,其可包括指定與其他個別成分相依之複數個成分的一或多者之解碼的資訊。
此種種類之完整壓縮聲音表徵的一範例係由MPEG-H 3D音訊標準(參考文件1)初稿第12章及附件C.5所指定之壓縮高階環境立體聲(HOA)音場表徵所提供。亦即,壓縮聲音表徵可對應於聲音或音場的壓縮HOA聲音(或音場)表徵。
針對此範例,基本壓縮音場表徵(基本壓縮聲音表徵)可包含(例如,可識別有)許多成分。該等成分可係(例如,對應於)單聲道信號。單聲道信號可係量化單聲
道信號。單聲道信號可代表主要聲音信號或環境HOA音場成分之係數序列的任一者。
基本側資訊可尤其為此等單聲道信號各者描述其如何空間地分布至音場。例如,基本側資訊可將主要聲音信號指定為純粹有向信號,意謂著具有特定入射方向的通用平面波。或者,基本側資訊可將單聲道信號指定為具有特定索引之原始HOA表徵的係數序列。如上文所指示的,基本側資訊可更分為第一部分及第二部分。
第一部分係相關於特定獨立單聲道信號的側資訊(例如,獨立基本側資訊)。此獨立基本側資訊與其他單聲道信號的存在無關。例如,此種側資訊可指定單聲道信號去表示具有特定入射方向的有向信號(例如,意謂著通用平面波)。或者,可將單聲道信號指定為具有特定索引之原始HOA表徵的係數序列。第一部分可稱為獨立基本側資訊。通常,第一部分(例如,基本側資訊)可與其他單聲道信號無關地獨立地指定複數個單聲道信號之一或多者的解碼。
第二部分係相關於特定獨立單聲道信號的側資訊(例如,額外基本側資訊)。此側資訊相依於其他單聲道信號的存在。若將單聲道信號指定成基於向量的信號(見,例如,參考文件1,第12.4.2.4.4節),可使用此種側資訊。此等信號在音場內有向地分布,其中該有向分佈可藉由向量指定。在特定模式中(參數,例如,CodedVVecLength=1),將此向量的特定成分隱含地設定
為零且不係壓縮向量表徵的一部分。此等成分係具有與原始HOA表徵之係數序列的索引相等之索引的成分,且係基本壓縮聲音表徵的一部分。意謂著若將向量的獨立成分編碼,彼等的總數可取決於基本壓縮聲音表徵。該總數可特別取決於原始HOA表徵所包含的係數序列。
若沒有原始HOA表徵的係數序列包含在基本壓縮聲音表徵中,用於基於向量之信號各者的相依基本側資訊係由所有向量成分組成並具有其最大尺寸。在將具有特定索引之原始HOA表徵的係數序列加至基本壓縮聲音表徵的情形中,將具有此等索引的向量成分從用於基於向量之信號各者的側資訊移除,從而減少用於基於向量的信號之相依基本側資訊的尺寸。
增強側資訊(例如,增強側資訊)可包含相關於(寬頻)空間預測(見參考文件1,第12.4.2.4.3節)的參數及/或相關於次頻帶有向信號合成及參數環境複製的參數。
相關於(寬頻)空間預測的參數可用於從有向信號(線性地)預測音場的缺少部分。
次頻帶有向信號合成及參數環境複製係最近導入具有修訂〔見參考文件2,第1節〕之MPEG-H 3D音訊標準中的壓縮工具。此等二工具允許空間地分布額外單聲道信號的頻率相依參數預測以補足空間上不完整或不足的壓縮HOA表徵。該預測可基於基本壓縮聲音表徵的係數序列。
重點係須注意到上文提及之音場的補充分布係表示在壓縮HOA表徵內,而非藉由額外的量化信號,更確切地說,藉由可比之較小尺寸的額外側資訊。因此,所提及的二編碼工具特別適合HOA表徵之以低資料率的壓縮。
具有上文提及之結構的一或多個單聲道信號之壓縮表徵的第二範例可包含用於達到特定高頻之不相干頻帶的編碼頻譜資訊,能將其視為係基本壓縮表徵;指定編碼頻譜資訊的基本側資訊(例如,藉由編碼頻帶的數目及寬度);及包含頻譜頻帶複製(SBR)之參數(例如,由其組成)的增強側資訊,其描述如何從基本壓縮表徵參數地重構用於未在基本壓縮表徵中考慮之較高頻帶的頻譜資訊。
本揭示發明提議用於分層編碼具有上文提及之結構的完整壓縮聲音(或音場)表徵的方法。
在提供用於連續時間區間之壓縮表徵(以資料封包或等效框酬載的形式)的情形中,該壓縮可係基於框的。時間區間可具有相等或不同尺寸。可假設此等資料封包包含有效性旗標,指示彼等尺寸以及實際壓縮表徵資料的值。在下文中,在未刻意地限制的情形下,將假設壓縮係基於框的。另外,在未刻意限制的情形中,除非另外指示,將聚焦在單一框的處理上,且因此將省略框索引。
假設正在考慮之完整壓縮聲音(或音場)表徵的各框酬載包含J個資料封包(或框酬載),各者用於藉由BSRCj,j=1,…,J標記之基本壓縮聲音表徵的一成分。
另外,假設其包含藉由BSII標記之具有獨立基本側資訊(基本側資訊)的封包,其與其他成分無關地指定基本壓縮聲音表徵的特定成分BSRCj。選擇性地,可另外假設其包含藉由BSID標記之具有相依基本側資訊(額外基本側資訊)的封包,其指定與其他成分相依之基本壓縮聲音表徵的特定成分BSRCj。
包含在二個資料封包BSII及BSID內的資訊可選擇性分組為基本側資訊的一個單資料封包BSI。可將單資料封包BSI稱為尤其包含J個部分,彼等各者指定基本壓縮聲音表徵的一個特定成分BSRCj。可以設此等部分各者依次包含獨立資訊的部分,及選擇性地包含相依側資訊的部分。
最後,其可包括藉由ESI標記之具有如何從完整基本壓縮聲音表徵改善或增強重構聲音(或音場)之描述的增強側資訊酬載(增強側資訊)。
用於分層編碼的提議解決方案解決必要步驟以致能包括封裝用於傳輸之資料封包的壓縮部分以及接收器及解壓縮部分二者。各部分將於下文詳細地描述。
首先,將描述壓縮及封裝(例如,用於傳輸)。將特別描述在分層編碼的情形中,完整壓縮聲音(或音場)表徵的成分及元件。
圖1示意地描繪用於壓縮及封裝的方法(例如,編碼方法、或聲音或音場的壓縮聲音表徵之分層編碼的方法)之範例的流程圖。獨立酬載至基層及(M-1)個增強層的
指派(例如,配置)可藉由運輸層封包完成。圖2示意地描繪獨立酬載的指派/配置之範例的方塊圖。
如上文所指示的,例如,完整壓縮聲音表徵2100可相關於包含基本壓縮聲音表徵的壓縮HOA表徵。完整壓縮聲音表徵2100可包含複數個成分(例如,單聲道信號)2110-1,...2110-J、獨立基本側資訊(基本側資訊)2120、選擇性的增強側資訊(增強側資訊)2140、及選擇性的相依基本側資訊(額外基本側資訊)2130。基本側資訊2120可係用於將基本壓縮聲音表徵解碼為聲音或音場之基本重構聲音表徵的資訊。基本側資訊2120可包括與其他成分無關地獨立地指定一或多個成分(例如,單聲道信號)之解碼的資訊。增強側資訊2140可包括用於改善(例如,增強)基本重構聲音表徵的參數。額外基本側資訊2130可係用於將基本壓縮聲音表徵解碼為基本重構聲音表徵的(進一步)資訊,並可包括指定與其他個別成分相依之複數個成分的一或多者之解碼的資訊。
圖2描繪有包括一個基層(基本層)及一或多個增強(分)層之複數個分層的基本假設。例如,總共可有M個層,亦即,一個基層及M-1個增強層。複數個分層具有連續遞增的層索引。層索引的最低值(例如,層索引1)對應於基層。進一步理解該等層係有序的,從基層,經由增強層,達到全體最高增強層(亦即,全體最高層)。
所提議的方法可在框的基礎上實施(亦即,以逐框方式)。壓縮聲音表徵2100可特別針對連續時間區間,例
如,相等尺寸的時間區間,壓縮。各時間區間可與框對應。以下描述的步驟可對各連續時間區間(例如,框)實施。
在圖1中的S1010,將複數個成分2110次分割為成分的複數個群組。然後將複數個群組個者指派(例如,加或配置)給複數個分層的個別一者。其中,群組的數目對應於層的數目。例如,群組的數目可等於層的數目,使得每層有一個成分群組。如上文所指示的,複數個層可包括基層及一或多個(例如,M-1)增強分層。
換言之,將基本壓縮聲音表徵次分割為待指派給獨立層的部分。群組化能藉由M+1個數字Jm,m=0,…,M描述,其中J0=1且JM=J+1,使得針對Jm-1 j<Jm將成分BSRCj指派給第m層而不損失一般性。
在S1020,將成分的群組指派給彼等的個別層。在S1030,將基本側資訊2120加(例如,配置)至基層(亦即,複數個分層的最低一者)。
亦即,由於其之小尺寸,已提議將完整基本側資訊(基本側資訊及選擇性的額外基本側資訊)包括至基層以避免其之不必要的片段化。
若正在考慮的壓縮聲音表徵包含相依基本側資訊(額外基本側資訊),該方法可更包含(未顯示於圖1中)將額外基本側資訊解壓縮至額外基本側資訊的複數個部分2130-1,…,2130-M中。然後可將額外基本側資訊的部分加(例如,配置)至基層。換言之,可將額外基本側資
訊的部分包括在基層中。額外基本側資訊的各部分可對應於個別層並可包括指定指派給相依於指派給該個別層及低於該個別層之任何層的其他成分之該個別層的一或多個成分之解碼的資訊。
因此,在使獨立基本側資訊BSII(基本側資訊)2120對該配置保持不變的同時,相依基本側資訊必需受用於分層編碼的空間處理,以另一方面允許在接收器側的正確解碼,及另一方面減少待傳輸之相依基本側資訊的尺寸。假設選擇性的相依基本側資訊對正在考慮的壓縮聲音表徵存在,已提議將相依基本側資訊解壓縮為藉由BSID,m,m=1,…,M標示的M個部分(部分),其中第m個部分包含用於指派給第m層之基本壓縮聲音表徵的各成分BSRCj,Jm-1 j<Jm的相依基本側資訊。在個別相依側資訊不存在的情形中,可將部分BSID,m的壓縮聲音表徵假設成係空的。相依基本側資訊的各部分BSID,m可相依於包含在達到第m層之所有層(亦即,包含在所有層中j=1,…,m)中的所有成分BSRCj,1j<Jm。
若獨立基本側資訊封包BSII係可忽略的小尺寸的,保持為整體並將其加(指派)至基層係合理的。選擇性地,提供封包BSII,m,m=1,…,M,也能對獨立基本側資訊完成與相依基本側資訊相似的分解。藉由將獨立基本側資訊的部分加(指派)至具有基本壓縮聲音表徵之對應成分的層,此對減少基層的尺寸係有用的。
在S1040,可決定增強側資訊的複數個部分2140-
1,…,2140-M。增強側資訊的各部分可包括用於改善(例如,增強)可從包括在該個別層及低於該個別層的任何層中之資料得到的重構聲音表徵的參數。
實施此步驟的原因係在分層編碼的情形中,因為企圖增強初步解壓縮聲音(或音場),然而其相依於用於解壓縮的可用層,實現增強側資訊必需額外對各層計算係重要的。特別係用於指定最高可解碼層(最高可使用層)的初步解壓縮聲音(或音場)相依於包括在最高可解碼層及低於該最高可解碼層之任何層中的成分。因此,壓縮必需提供藉由ESIm,m=1,…,M標記的M個獨立增強側資訊資料封包(增強側資訊的部分),其中計算第m個資料封包ESIm中的該增強側資訊以增強從包括在基層及具有低於m之索引的增強層中之所有資料(例如,包含在第m層中及低於第m層之任何層中的所有資料)得到的聲音(或音場)表徵。
在S1050,將增強側資訊的複數個部分2140-1,…,2140-M指派(例如,加或配置)至複數個層。將增強側資訊之複數個部分各者指派給複數層的個別一者。例如,複數層各者包括增強側資訊的個別部分。
可將基本及/或增強側資訊至個別層的指派指示在由編碼方法產生的組態資訊中。換言之,可將基本及/或增強側資訊及個別層之間的對應性指示在組態資訊中。另外,組態資訊可為各層指示指派給(例如,包括在)該層之基本壓縮聲音表徵的成分。將額外基本側資訊的部分包括在基層中,仍可對應於與基層不同的層。
總之,在壓縮級,提供藉由FRAME標示之具有下列組成的框資料封包:FRAME=[BSRC1...BSRCJ BSII BSID,1 BSID,M ESII ESIM] (1)
另外,在藉由FRAME標記之框資料封包會具有下組成的情形中,可將封包BSII及BSID,m,其中m=1,…,M,結合成單一封包BSI:FRAME=[BSRC1 BSRC2...BSRCJ BSI ESI1 ESI2...ESIM] (2)
具有框資料封包之獨立酬載的次序通常可係任意的。
然後可將獨立資料封包分組在酬載內,將其界定為包含有效性旗標,其指示彼等尺寸以及實際壓縮表徵資料之值的特殊資料封包。酬載的使用在接收器側允許簡單的解多工,提供能將廢棄酬載拋棄而無須剖析彼等的優點。將一種可能的群組化給定為
具有框資料封包之獨立酬載的次序通常可係任意的。
該方法可更包含(未顯示於圖1中)為複數層各者產生包括該個別層之資料(例如,成分、用於基層的基本側資訊及增強側資訊、或成分及用於該一或多個增強層的增強側資訊)的運輸層封包(例如,基層封包2200及M-1個增強層封包2300-1,...,2300-(M-1))。
用於不同層的運輸層封包可具有不同的傳輸性質。因此,該方法可更包含(未顯示於圖1中)產生用於複數層的資料之傳輸的運輸串流,其中該基層具有傳輸的最高優先度且增強分層具有遞減的傳輸優先度。其中,較高的傳輸優先度可對應於較大程度的錯誤保護,且反之亦然。
除非步驟需要作為先決的其他特定步驟,上文提及的
步驟可用任何次序實施並將描繪於圖1中的例示次序理解為非限制性的。
圖3描繪解碼用於解碼或解壓縮(解封裝)的聲音(或音場)之壓縮聲音表徵的方法。將對應接收器及解壓縮級的範例示意地描繪在圖4A及圖4B的方塊圖中。
遵循上文,可將壓縮聲音表徵編碼在複數個分層中。複數個層可具有指派至其(例如,可包括)之基本壓縮聲音表徵的成分,該成分被指派給個別成分群組中的個別層。基層可包括用於解碼基本壓縮聲音表徵的基本側資訊。各層可包括其包括用於改善可從包括在該個別層及低於該個別層之任何層中的資料得到之基本重構聲音表徵的參數之增強側資訊的上文提及之部分的一者。
所提議的方法可在框的基礎上實施(亦即,以逐框方式)。聲音或音場的恢復表徵可特別針對連續時間區間產生,例如,等尺寸的時間區間。例如,時間區間可係框。以下描述的步驟可對各連續時間區間(例如,框)實施。
在S3010,接收對應於複數個層的資料酬載(例如,運輸層封包)。可將資料酬載接收為包含聲音或音場的壓縮HOA表徵之位元串流的一部分,該表徵對應於複數個分層。該分層包括基層及一或多個增強分層。複數個層具有指派至其的聲音或音場之基本壓縮聲音表徵的成分。將該等成分指派給個別成分群組中的個別層。
然後可將接收的框封包傳至解壓縮器或解碼器4100。若獨立層的傳輸已免於錯誤,將至少所包含之增強側資訊酬載(例如,對應於增強側資訊的部分)部分的有效旗標設定成「真」。在錯誤歸因於獨立層之傳輸的情形中,將此層中之至少增強側資訊酬載內的有效旗標設定成「偽」。因此,能從所包含之增強側資訊酬載的有效性(例如,從其有效性旗標)決定層封包的有效性。
在解壓縮器4100中,可將接收的框封包解多工。針對此目的,可利用與各酬載之尺寸有關的資訊以避免不必要的剖析獨立酬載的資料。
在S3020,從待用於將基本壓縮聲音表徵解碼成聲音或音場之基本重構聲音表徵的複數個層之中決定指示最高層(例如,最高可使用層或最高可解碼層)的第一層索引。
再者,在S3020,可選擇將用於基本聲音表徵之解壓縮的最高層(最高可使用層)的值(例如,層索引)NB。待實際用於基本聲音表徵之解壓縮的最高增強層係藉由NB-1給定。因為各層精準地包含一個增強側資訊酬載(增強側資訊的部分),可基於增強側資訊酬載決定所包含的層是否有效(例如,已有效地接收)。因此,該選擇能使用所有的增強側資訊酬載ESIm,m=1,…,M(或對應地,,m=1,…,M)完成。
在S3030,得到基本重構聲音表徵。使用基本側資訊(或通常,使用基本側資訊),基本重構聲音表徵可從指派給藉由第一層索引所指示的最高可使用層及低於此最高可使用層之任何層的成分得到。
可將基本壓縮聲音表徵成分BSRC1,…,BSRCJ的酬載,連同(全部)基本側資訊酬載(例如,BSI或BSII及BSID,m,m=1,…,M)及值NB提供至基本表徵解壓縮處理單元4200。基本表徵解壓縮處理單元4200(描繪於圖4A及4B中),僅使用包含在最低的NB個層,亦即,基層及NB-1個增強層(亦即,達到由第一層索引所指示之層的層),內的此等基本壓縮聲音表徵成分重構基本聲音(或音場)表徵。或者,可僅將包含在最低的NB個層中
之基本壓縮聲音表徵成分的酬載以及個別基本側資訊酬載提供至基本表徵解壓縮處理單元4200。
將與包含在獨立層中之基本壓縮聲音(或音場)表徵的成分有關的所需資訊假設成解壓縮器4100已從具有組態資訊的資料封包得知,假設其係在框資料封包之前傳送及接收。
為提供相依側資訊資料封包BSID,m,m=1,…,NB及增強側資訊資料封包,可將所有增強酬載連同值NE及值NB輸入至解壓縮器4100的部分剖析器4400(見圖4B)。剖析器可拋棄將不用於實際解壓縮的所有酬載及資料封包。若NE的值等於零,假設所有增強側資訊資料封包均係空的。
若基層包括對應於個別層的至少一個相依基本側資訊酬載(額外基本側資訊的部分),各獨立相依基本側資訊酬載(例如,BSID,m,m=1,…,NB(額外基本側資訊的部分))的解碼可包括(i)藉由參考指派給其個別層及低於該個別層之任何層的成分解碼額外基本側資訊的部分(初步解碼),及(ii)藉由參考指派給該最高可使用層及最高可使用層及該個別層之間的任何層之成分校正額外基本側資訊的部分(校正)。其中,對應於個別層的額外基本側資訊包括指定指派給相依於指派給該個別層及低於該個別層之任何層的其他成分之該個別層的成分之中的一或多個成分之解碼的資訊。
然後,使用基本側資訊及從對應於達到該最高可使用
層之層的額外基本側資訊之部分得到的額外基本側資訊之校正的部分,能從指派給最高可使用層及低於該最高可使用層之任何層的成分得到(例如,產生)基本重構聲音表徵。
特別係,各酬載BSID,m,m=1,…,NB的初步解碼可包含利用在編碼級假設之其在包含於前m個層中之前Jm-1個基本壓縮聲音表徵成分BSRC1,…,BSRC(Jm)-1上的相依性。
各酬載BSID,m,m=1,…NB的連續校正可包含考慮基本聲音成分最終係從包含在前NB>m個層中之前-1個基本壓縮聲音表徵成分BSRC1,…,重構,其比假設用於初步解碼的成分更多。因此,校正可藉由將廢棄資訊拋棄而完成,其可能係由於相依基本側資訊之若將特定補充成分加至基本壓縮聲音表徵,用於各獨立(補充)成分的相依基本側資訊變為原始資訊之子集的最初假設性質所導致。
在S3040,可決定第二層索引。第二層索引可指示應用於改善(例如,增強)基本重構聲音表徵之增強側資訊的部分(等)。
除了第一層索引,可決定待用於解壓縮之增強側資訊酬載(第二增強資訊的部分)的索引(第二層索引)NE。第二層索引NE可始終等於第一層索引NB或等於零。增強可始終根據從最高可使用層得到的基本聲音表徵或完全不根據其完成。
在S3050,參考第二層索引從基本重構聲音表徵得到(例如,產生)聲音或音場的重構聲音表徵。
亦即,重構聲音表徵係藉由(參數地)改善或增強基本重構聲音表徵而得到,諸如,藉由使用由第二層索引指示的增強側資訊(增強側資訊的部分)。如進一步於下文指示的,第二層索引可指示在此級完全不使用任何增強側資訊。然後,重構聲音表徵會對應於基本重構聲音表徵。
針對此目的,將重構基本聲音表徵連同所有的增強側資訊酬載ESI1,…,ESIM、基本側資訊酬載(例如,BSI或BSII及BSID,m,m=1,…,M)、及值NE提供至增強表徵解壓縮處理單元4300(描繪於圖4A及4B中),其僅使用增強側資訊酬載並拋棄所有其他增強側資訊酬載計算最終增強聲音(或音場)表徵2100'。或者,可取代所有的增強側資訊酬載,僅將增強側資訊酬載提供至增強表徵解壓縮處理單元4300。若NE的值等於零,將所有增強側資訊酬載拋棄(或替代地,不提供增強側資訊)且重構的最後增強聲音表徵2100'等於重構基本聲音表徵。增強側資訊酬載可已藉由部分剖析器4400得到。
圖3也一般地描繪基於與該基層關聯的基本側資訊並基於與該一或多個增強分層關聯的增強側資訊解碼該壓縮HOA表徵。
除非步驟需要作為先決的其他特定步驟,上文提及的步驟可用任何次序實施並將描繪於圖3中的例示次序理解
為非限制性的。
其次,將描述步驟S3020及S3040之用於解壓縮的層選擇的細節(第一及第二層索引的選擇)。
決定第一層索引可包含為各層決定個別層是否已有效地接收。決定第一層索引可更包含將第一層索引決定為緊接在尚未有效地接收的最低層之下的層的層索引。層是否已有效地接收可藉由估算該層的增強側資訊酬載是否已有效地接收而決定。此可藉由估算增強側資訊酬載內的有效性旗標而依次完成。
決定該第二層索引通常可包含決定該第二層索引等於該第一層索引,或將索引值決定為其指示當得到重構聲音表徵時不使用任何增強側資訊的第二層索引(例如,索引值0)。
在所有框資料封包可彼此獨立地解壓縮的情形中,可將待實際用於基本聲音表徵的解壓縮之最高層(最高可使用層)的數目NB及待用於解壓縮之增強側資訊酬載的索引NE設定成有效增強側資訊酬載的最高數目L,其自身可藉由估算增強側資訊酬載內的有效性旗標而決定。藉由利用各增強側資訊酬載之尺寸的知識,能避免用於決定彼等有效性之對酬載的實際資料的複雜剖析。
亦即,若能獨立地解碼用於連續時間區間的壓縮聲音表徵,可將第二層索引決定成等於第一層索引。在此情形中,重構基本聲音表徵可基於最高可使用層的增強側資訊酬載增強。
在使用具有框間相依之的差動解壓縮的情形中,必需另外考慮來自先前框的決定。須注意使用差動解壓縮,獨立框資料封包通常係以規律時間區間傳輸,以允許從此等時間實例開始解壓縮,其中值NB及NE的決定變為框獨立的並如上文所述地實行。
為詳細地解釋所提議的框相依決定,將第k個框之有效增強側資訊酬載的最高數目(例如,層索引)標記為L(k),將待選擇及用於基本聲音表徵之解壓縮的最高層數目(例如,層索引)標記為NB(k),並將待用於解壓縮之增強側資訊酬載的數目(例如,層索引)標記為NE(k)。
使用此註記,由NB(k)標記之待用於基本聲音表徵的解壓縮的最高層數目可根據下式計算NB(k)=min(NB(k-1),L(k)) (7)
藉由選擇不大於NB(k-1)及L(k)的NB(k),確保基本聲音表徵之差動解壓縮所需的所有資訊係有效的。
亦即,若用於連續時間區間(例如,框)的壓縮聲音表徵不能彼此無關地解碼,決定第一層索引可包含為各層決定個別層是否已有效地接收,並將指定時間區間的第一層索引決定為領先該指定時間區間之時間區間的第一層索引及緊接在未有效地接收的最低層之下的層之層索引的較小一者。
其中,將NE(k)選擇為0指示重構基本聲音表徵將不使用增強側資訊改善或增強。
此特別意謂著只要待用於基本聲音表徵之解壓縮的最高數目NB(k)不改變,選擇相同的對應增強層數目。然而,在NB(k)改變的情形中,藉由將NE(k)設定為零而將增強除能。由於假設增強側資訊的差動解壓縮,其之根據NB(k)的改變係不可能的,因為會需要在先前框將對應增強側資訊層解壓縮,而其被假設為尚未實行。
亦即,若用於連續時間區間(例如,框)的壓縮聲音表徵不能彼此獨立地解碼,決定第二層索引可包含決定指定時間區間的第一層索引是否等於前導時間區間的第一層索引。若指定時間區間的第一層索引等於前導時間區間的第一層索引,可將指定時間區間的第二層索引決定(例如,選擇)成等於指定時間區間的第一層索引。另一方面,若指定時間區間的第一層索引不等於前導時間區間的第一層索引,可將索引值決定(例如,選擇)為指示當得到重構聲音表徵時不使用任何增強側資訊的第二層索引。
或者,若在解壓縮時將具有達到NE(k)之數目的所有增強側資訊酬載平行地解壓縮,方程式(4)中的選擇規則能為以下式所取代
NE(k)=NB(k) (9)
最終,須注意針對差動解壓縮,最高使用層的數目NB能僅在獨立框資料封包增加,然而在每個框減少係可能的。
已理解所提議的壓縮聲音表徵之分層編碼的方法可藉由用於壓縮聲音表徵之分層編碼的編碼器實作。此種編碼器可包含適用於實行上述個別步驟的個別單元。此種編碼器5000的範例示意地描繪於圖5中。例如,此種編碼器5000可包含適用於實施例上文提及之S1010的成分次分割單元5010、適用於實施上文提及之S1020的成分指派單元5020、適用於實施上文提及之S1030的基本側資訊指派單元5030、適用於實施上文提及之S1040的增強側資訊分區單元5040、及適用於實施上文提及之S1050的增強側資訊指派單元5050。更理解此種編碼器的個別單元可藉由計算裝置的處理器5100具現,其適用於實施藉由該個別單元各者實行的處理,亦即,適用於實行部分或全部上文提及的步驟,以及所提議之編碼方法的任何進一步步驟。編碼器或計算裝置可更包含可由處理器5100存取的記憶體5200。
更理解所提議之解碼編碼在複數個分層中的壓縮聲音表徵的方法可藉由用於解碼編碼在複數個分層中之壓縮聲音表徵的解碼器實作。此種解碼器可包含適用於實行上述
個別步驟的個別單元。此種解碼器6000的範例示意地描繪於圖6中。例如,此種解碼器6000可包含適用於實施上文提及之S3010的接收單元6010、適用於實施上文提及之S3020的第一層索引決定單元6020、適用於實施上文提及之S3030的基本重構單元6030、適用於實施上文提及之S3040的第二層索引決定單元6040、及適用於實施上文提及之S3050的增強重構單元6050。更理解此種解碼器的個別單元可藉由計算裝置的處理器6100具現,其適用於實施藉由該個別單元各者實行的處理,亦即,適用於實行部分或全部上文提及的步驟,以及所提議之解碼方法的任何進一步步驟。解碼器或計算裝置可更包含可由處理器6100存取的記憶體6200。
應注意到描述及圖式僅說明所提議方法及設備的原理。因此雖然未明顯地描述或顯示於本文中,熟悉本發明之人士將理解本技術將能設計具現本發明之原理並包括在其精神及範圍內的各種配置。此外,原則上將本文陳述的所有範例明確地視為僅供教學目的之用,以協助閱讀者理解由本發明人提供之提議方法及設備的原理及觀念以進一步發展本技術,並以對此種具體陳述之範例及條件沒有限制的方式構成。再者,將陳述原理、實施樣態,及將本發明的實施例、以及其特定範例的本文所有敘述視為包含其等效實例。
描述於本文件中的該方法及設備可實作為軟體、軔體、及/或硬體。特定組件可,例如,實作為在數位訊號
處理器或微處理器上運作之軟體。其他組件可,例如,實作為硬體及/或特定應用積體電路。在所描述之方法及設備中遇到的該等訊號可儲存在媒體中,諸如,隨機存取記憶體或光學儲存媒體。彼等可經由網路轉移,諸如,無線電網路、衛星網路、無線網路、或有線網路,例如,網際網路。
參考文件1:ISO/IEC JTC1/SC29/WG11 23008-3:2015(E)。資訊技術-異質環境中的高效率編碼及媒體遞送-第3部分:3D音訊,2015年2月。
參考文件2:ISO/IEC JTC1/SC29/WG11 23008-3:2015/PDAM3。資訊技術-異質環境中的高效率編碼及媒體遞送-第3部分:3D音訊,修訂3:MPEG-H 3D音訊相位2,2015年7月。
2100:完整壓縮聲音表徵
2110-1、2110-J:成分
2120:獨立基本側資訊
2130-1,…,2130-M:部分
2140-1,…,2140-M:部分
2200:基層封包
2300-1、2300-(M-1):增強層封包
Claims (15)
- 一種解碼聲音或音場的壓縮高階環境立體聲(HOA)聲音表徵的方法,該聲音或音場的壓縮高階環境立體聲(HOA)聲音表徵係使用分層編碼而於複數個分層中被編碼,該方法包含:接收含有該壓縮HOA表徵的位元串流,該壓縮HOA表徵對應於其包括基層及至少一增強分層的複數個分層,其中該複數個分層之至少一者包括該聲音或音場的基本壓縮聲音表徵的成分,該成分對應於複數個單聲道信號,以及基於與該基層關聯的基本側資訊並基於與該至少一增強分層關聯的增強側資訊解碼該壓縮HOA表徵,其中該基本側資訊指示第一獨立單聲道信號代表具有入射方向的有向信號,其中該第一獨立單聲道信號將與其他單聲道信號無關地解碼。
- 如請求項1之方法,其中該基本側資訊更包括與該複數個單聲道信號之第二獨立單聲道信號有關的基本相依側資訊,該第二獨立單聲道信號將與該複數個單聲道信號之其他單聲道信號相依地解碼。
- 如請求項2之方法,其中該基本相依側資訊包括在該音場內有向地分佈之基於向量的信號,其中該有向分佈係藉由該向量指定。
- 如請求項3之方法,其中將該向量的分 量設定成零且非壓縮向量表徵的一部分。
- 如請求項1之方法,其中該增強側資訊包括與至少下列一者有關的參數:空間預測、次頻帶有向信號合成、及參數環境複製。
- 如請求項1之方法,其中該增強側資訊包括其允許從有向信號預測該聲音或音場之缺少部分的資訊。
- 如請求項1之方法,更包含:為各層決定該個別層是否已有效地被接收;及決定緊接在尚未有效地接收的最下層以下之層的層索引。
- 一種非暫態電腦可讀儲存媒體,包含當由處理器執行時實施如請求項1所述之方法的指令。
- 一種解碼聲音或音場的壓縮高階環境立體聲(HOA)聲音表徵的設備,該聲音或音場的壓縮高階環境立體聲(HOA)聲音表徵係使用分層編碼而於複數個分層中被編碼,該設備包含:接收器,用於接收含有該壓縮高階環境立體聲(HOA)聲音表徵的位元串流,該壓縮高階環境立體聲(HOA)聲音表徵對應於其包括基層及至少一增強分層的複數個分層,其中該複數個分層之至少一者包括該聲音或音場的基本壓縮聲音表徵的成分,該成分對應於複數個單聲道信號,以及解碼器,用於基於與該基層關聯的基本側資訊並基於 與該至少一增強分層關聯的增強側資訊解碼該壓縮高階環境立體聲(HOA)聲音表徵,其中該基本側資訊包括指定一單聲道信號以代表具有入射方向的有向信號。
- 如請求項9之設備,其中該基本側資訊更包括與該複數個單聲道信號之第二獨立單聲道信號有關的基本相依側資訊,該第二獨立單聲道信號將與該複數個單聲道信號之其他單聲道信號相依地解碼。
- 如請求項10之設備,其中該基本相依側資訊包括在該音場內有向地分佈之基於向量的信號,其中該有向分佈係藉由該向量指定。
- 如請求項11之設備,其中將該向量的分量設定成零且非壓縮向量表徵的一部分。
- 如請求項9之設備,其中該增強側資訊包括與至少下列一者有關的參數:空間預測、次頻帶有向信號合成、及參數環境複製。
- 如請求項9之設備,其中該增強側資訊包括資訊,該資訊允許從有向信號預測該聲音或音場之缺少部分。
- 如請求項9之設備,更包含:為各層決定該個別層是否已有效地被接收;及決定緊接在尚未有效地被接收的最下層以下之層的層索引。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15306589 | 2015-10-08 | ||
EP15306589.1 | 2015-10-08 | ||
EP15306653.5 | 2015-10-15 | ||
EP15306653 | 2015-10-15 | ||
US201662361461P | 2016-07-12 | 2016-07-12 | |
US201662361416P | 2016-07-12 | 2016-07-12 | |
US62/361,461 | 2016-07-12 | ||
US62/361,416 | 2016-07-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202123219A TW202123219A (zh) | 2021-06-16 |
TWI829956B true TWI829956B (zh) | 2024-01-21 |
Family
ID=71451027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109126268A TWI829956B (zh) | 2015-10-08 | 2016-10-07 | 解碼聲音或音場的壓縮高階環境立體聲(hoa)聲音表徵的方法、設備及非暫態電腦可讀儲存媒體 |
Country Status (9)
Country | Link |
---|---|
JP (1) | JP7122359B2 (zh) |
CO (1) | CO2018004866A2 (zh) |
HK (1) | HK1249800A1 (zh) |
IL (1) | IL281195B (zh) |
PH (1) | PH12021551044A1 (zh) |
SG (1) | SG10202002011QA (zh) |
TW (1) | TWI829956B (zh) |
UA (1) | UA123399C2 (zh) |
ZA (1) | ZA201802533B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213809A1 (en) * | 2014-01-30 | 2015-07-30 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
WO2015140293A1 (en) * | 2014-03-21 | 2015-09-24 | Thomson Licensing | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
-
2016
- 2016-10-07 UA UAA201804907A patent/UA123399C2/uk unknown
- 2016-10-07 IL IL281195A patent/IL281195B/en unknown
- 2016-10-07 SG SG10202002011QA patent/SG10202002011QA/en unknown
- 2016-10-07 TW TW109126268A patent/TWI829956B/zh active
-
2018
- 2018-04-17 ZA ZA2018/02533A patent/ZA201802533B/en unknown
- 2018-05-08 CO CONC2018/0004866A patent/CO2018004866A2/es unknown
- 2018-07-17 HK HK18109261.3A patent/HK1249800A1/zh unknown
-
2020
- 2020-11-17 JP JP2020190600A patent/JP7122359B2/ja active Active
-
2021
- 2021-05-05 PH PH12021551044A patent/PH12021551044A1/en unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213809A1 (en) * | 2014-01-30 | 2015-07-30 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
WO2015140293A1 (en) * | 2014-03-21 | 2015-09-24 | Thomson Licensing | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
Also Published As
Publication number | Publication date |
---|---|
CO2018004866A2 (es) | 2018-05-21 |
ZA201802533B (en) | 2020-08-26 |
JP7122359B2 (ja) | 2022-08-19 |
HK1249800A1 (zh) | 2018-11-09 |
SG10202002011QA (en) | 2020-05-28 |
TW202123219A (zh) | 2021-06-16 |
IL281195B (en) | 2022-07-01 |
PH12021551044A1 (en) | 2021-11-29 |
IL281195A (en) | 2021-04-29 |
UA123399C2 (uk) | 2021-03-31 |
JP2021036341A (ja) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7346676B2 (ja) | 圧縮された音または音場表現のための層構成の符号化 | |
US20230215446A1 (en) | Layered coding for compressed sound or sound field representations | |
TWI829956B (zh) | 解碼聲音或音場的壓縮高階環境立體聲(hoa)聲音表徵的方法、設備及非暫態電腦可讀儲存媒體 | |
JP7110304B2 (ja) | 圧縮された音または音場表現のための層構成の符号化 |