TWI571865B - 音訊編碼器裝置、音訊解碼器裝置、及其操作方法 - Google Patents
音訊編碼器裝置、音訊解碼器裝置、及其操作方法 Download PDFInfo
- Publication number
- TWI571865B TWI571865B TW103136286A TW103136286A TWI571865B TW I571865 B TWI571865 B TW I571865B TW 103136286 A TW103136286 A TW 103136286A TW 103136286 A TW103136286 A TW 103136286A TW I571865 B TWI571865 B TW I571865B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- dynamic range
- range control
- metadata
- decoder
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 53
- 230000002265 prevention Effects 0.000 claims description 213
- 238000012545 processing Methods 0.000 claims description 53
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 60
- 230000006835 compression Effects 0.000 description 18
- 238000007906 compression Methods 0.000 description 18
- 238000013507 mapping Methods 0.000 description 16
- 230000006978 adaptation Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- PEIBAWRLFPGPAT-UHFFFAOYSA-N 1-(diazomethyl)pyrene Chemical compound C1=C2C(C=[N+]=[N-])=CC=C(C=C3)C2=C2C3=CC=CC2=C1 PEIBAWRLFPGPAT-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G11/00—Limiting amplitude; Limiting rate of change of amplitude ; Clipping in general
- H03G11/008—Limiting amplitude; Limiting rate of change of amplitude ; Clipping in general of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本發明係關於用於音訊裝置之組合動態範圍壓縮及引導裁切防止之概念。本發明係特別是關於音訊編碼器、用於操作音訊編碼器之方法、用於執行用於操作音訊編碼器之方法的電腦程式、音訊解碼器、用於操作音訊解碼器之方法,及用於執行用於操作音訊解碼器之方法的電腦程式。
本發明提供一種用於產生包含一或多個音訊通道及/或一或多個音訊物件之一音訊位元串流的音訊編碼器,該音訊編碼器包含用於產生一元資料位元串流之一元資料編碼器,該音訊編碼器經組配以:接收針對一音訊訊框之至少一動態範圍控制增益序列,該動態範圍控制增益序列包含針對一音訊解碼器之一動態範圍控制級的一或多個動態範圍控制增益;
接收針對該音訊訊框之至少一引導裁切防止增益序列,該引導裁切防止增益序列包含針對該音訊解碼器之一引導裁切防止級的一或多個引導裁切防止增益;以及將該等動態範圍控制增益序列中之至少一者及該等引導裁切防止增益序列中之至少一者併入到該元資料位元串流中。
發明性概念係基於若干處理區塊之組合,該等區塊一起提供用於動態範圍壓縮(DRC)及用於引導裁切防止(gCP)之聯合解決方案的所要求功能性。
發明性概念尤其適合於如(例如)在[M30100,M30101]中所定義的相關之組態資訊已在編碼器及解碼器處可用的音訊系統。此資訊可(例如)包括於用於基於檔案之傳輸的標頭中或統一話音及音訊寫碼(USAC)組態擴展中。組態資訊可包括通道佈局、降混指令(例如,降混係數)、動態範圍控制指令(例如,所應用之動態範圍控制特性、用於播放軌之動態範圍控制增益序列的數目),及響度資訊(例如,程式響度、錨定響度(anchor loudness)、真實峰值)。更多細節可在[M30100,M30101]中找到。相同情況適用於相應之引導裁切防止指令,該等指令可以與動態範圍控制指令框之資訊相同的方式加以處置。
根據本發明之音訊編碼器能夠產生包含針對音訊解碼器之動態範圍控制級的動態範圍控制增益序列以及針對音訊解碼器之引導裁切防止級的引導裁切防止增益序列之元資料位元串流,其中動態範圍控制增益序列可與引
導裁切防止增益序列分開地傳輸。
元資料編碼器使用(例如)藉由由內容提供者所操作之外部工具在外部提供的動態範圍控制增益序列作為輸入。
動態範圍控制增益之可能時間解析度可在幾個樣本之範圍內。動態範圍控制增益值通常可藉由達至0.125dB之足夠解析度來表示。
另外,元資料編碼器將引導裁切防止增益序列作為輸入。
經壓縮之動態範圍控制增益序列及引導裁切防止增益序列可作為包括於統一之話音及音訊寫碼擴展有效負載中的旁側資訊傳輸至接收器。
應注意,動態範圍控制增益序列應僅包括動態範圍控制增益以執行動態範圍壓縮,而用於裁切防止之引導裁切防止增益係由引導裁切防止增益序列容納。
引導裁切防止增益之時間解析度可與動態範圍控制增益之時間解析度相同。
在解碼器側處之信號裁切可(例如)歸因於響度正規化、降混、參數寫碼工具等而發生。
根據先前技術,裁切防止可藉由將峰值限制器置放於解碼器處理鏈之最末端處而達成。峰值限制器偵測輸入信號中超過經定義最大值之音訊樣本,且將位準降低應用至各別信號部分以使得輸出信號之樣本始終保持在經定義最大值以下。為了防止可聽失真,位準降低必須逐漸地
執行,亦即,應用於信號之增益因子可僅隨時間緩慢地改變,此係藉由增益平滑濾波器確保。輸入信號在應用增益因子之前的前瞻延遲亦用以允許在突然信號峰值之前已開始的增益之平滑減小。因為解碼器側峰值限制器通常並非自編碼器側控制(內容產生者對峰值限制器處理不具有影響),所以其產生直接應用至音訊信號之非引導裁切防止增益序列。解碼器側峰值限制器始終在解碼器側引起額外的前瞻延遲(約5ms或更大)及計算複雜性。
與之對比,如根據本發明所使用之引導裁切防止增益序列允許在編碼器側處完全控制裁切防止增益之產生(若需要,則內容產生者可對增益特性具有影響)。在產生之後,裁切防止增益序列被傳輸至解碼器側。若針對當前解碼器組態之合適的引導裁切防止增益序列在元資料位元串流中可用,則可在大多數狀況下避免使用解碼器側峰值限制器。因此,解碼器側處之額外的前瞻延遲及計算複雜性可得以避免。
可針對各種解碼器組態,例如針對特定目標響度位準或針對特定降混組態來傳輸引導裁切防止增益序列。若解碼器組態匹配,則合適的引導裁切防止增益序列可應用至解碼器輸出信號。在許多狀況下,引導裁切防止增益序列可視情況經縮放以匹配非匹配目標響度位準(儘可能地使用信號餘裕空間)。
引導裁切防止增益序列用以確保針對特定目標位準及降混/格式轉換器組態在音訊解碼器之輸出端處不
發生樣本裁切。每一引導裁切防止增益序列可針對特定降混/格式轉換器組態、特定目標位準,及針對通道之特定動態範圍控制增益序列連同針對物件之特定動態範圍控制增益序列的組合來最佳化。關於哪一引導裁切防止增益序列與哪一動態範圍控制增益序列相關聯之資訊可包括於含於統一之話音及音訊寫碼組態擴展之檔案標頭中的引導裁切防止指令中。該引導裁切防止指令亦可包括與引導裁切防止增益的已在編碼器處加以判定之目標位準相關的資訊。
用於上文所述之動態範圍處理的發明性概念表示整個處理鏈之編碼器側控制方法。用於動態範圍控制及引導裁切防止之元資料的分離允許對增益中之每一者的單獨修改(縮放或映射),該修改取決於解碼器組態及播放情境。
在發明性概念之情況下,若動態範圍控制增益與引導裁切防止增益分開地傳輸,則有可能將動態範圍控制增益序列之基礎動態範圍控制特性自重度壓縮改變為輕度壓縮。此可藉由對動態範圍控制增益序列之值的適當縮放或映射來達成。
發明性概念給予內容提供者對音訊解碼器之最終輸出的完全控制,以便滿足給定之品質要求。在此狀況下,可針對被視為最重要的特定解碼器組態而包括動態範圍控制增益序列及引導裁切防止增益序列兩者。在許多狀況下,歸因於動態範圍控制增益序列及引導裁切防止增益序列之組合使用,可捨棄峰值限制器。必須注意,在音訊
解碼器側處之引導裁切防止(其係藉由簡單地應用引導裁切防止增益而達成)與使用峰值限制器相比在計算上更有效率。
根據本發明之較佳實施例,元資料編碼器經組配以針對同一音訊訊框接收包含不同動態範圍控制增益之至少兩個動態範圍控制增益序列,且將包含不同動態範圍控制增益的該至少兩個動態範圍控制增益序列併入到元資料位元串流中。
關於哪些動態範圍控制特性與不同動態範圍控制增益序列相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
藉由此等特徵,有可能針對音軌之通道提供多個動態範圍控制增益序列,以便允許實現在解碼器處的具有不同壓縮特性的輸出信號。
根據本發明之較佳實施例,元資料編碼器經組配以接收包含與不同音訊通道及/或與不同音訊物件相關的至少兩個動態範圍控制增益之動態範圍控制增益序列,元資料編碼器經組配以將與不同音訊通道及/或與不同音訊物件相關的該至少兩個動態範圍控制增益及視情況動態範圍控制增益與音訊通道及/或音訊物件之關係併入到元資料位元串流中。
在每一動態範圍控制序列內,有可能針對不同通道或通道之群組定義一組不同的動態範圍控制增益,每一
通道通常與正好一個通道群組相關聯。舉例而言,在多通道電影聲音中,常常需要將特定動態範圍控制增益應用至對話通道。可藉由使用不同動態範圍控制增益來處理諸如左前、右前、左後、右後之剩餘通道。
根據通道狀況類推,可支援與音訊物件或物件之群組相關聯的多個動態範圍控制序列。此等物件相關動態範圍控制序列亦可被視為與動態範圍控制增益之通道相關集合內的特定通道群組相關聯。音訊物件一詞在本文中係關於諸如門鈴之單源聲音。
關於哪些動態範圍控制特性與不同動態範圍控制增益序列相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
根據本發明之較佳實施例,元資料編碼器經組配以接收包含與音訊解碼器之不同頻帶相關的至少兩個動態範圍控制增益之動態範圍控制增益序列,元資料編碼器經組配以將與解碼器之不同頻帶相關的該至少兩個動態範圍控制增益及視情況動態範圍控制增益與解碼器之頻帶的關係併入到元資料位元串流中。
在支援多頻帶動態範圍控制之可選擴展中,元資料編碼器可經擴展以亦接受針對不同頻帶具有不同動態範圍控制增益的動態範圍控制增益序列作為輸入。
關於哪些動態範圍控制特性與不同動態範圍控制增益序列相關聯的資訊可包括於在基於檔案之遞送的狀
況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
根據本發明之較佳實施例,元資料編碼器經組配以接收包含不同引導裁切防止增益的至少兩個引導裁切防止增益序列,且將包含不同引導裁切防止增益的該至少兩個引導裁切防止增益序列併入到元資料位元串流中。
根據本發明之較佳實施例,每一動態範圍控制序列與引導裁切防止增益序列中之一者相關,元資料編碼器經組配以將動態範圍控制序列與引導裁切防止增益序列之間的關係併入到元資料位元串流中。
根據本發明之較佳實施例,元資料編碼器經組配以接收包含與不同音訊通道及/或與不同音訊物件相關的至少兩個引導裁切防止增益之引導裁切防止增益序列,元資料編碼器經組配以將包含與不同音訊通道及/或與不同音訊物件相關的至少兩個引導裁切防止增益之引導裁切防止序列及視情況引導裁切防止增益與音訊通道及/或音訊物件之關係併入到元資料位元串流中。
如同動態範圍控制增益,有可能在每一引導裁切防止序列內針對不同通道或通道之群組定義一組不同的引導裁切防止增益,其中每一通道通常與正好一個通道群組相關聯。在典型操作模式中,將相同的引導裁切防止增益應用至所有通道。
針對物件之引導裁切防止增益序列的定義與動態範圍控制狀況相似。
在另一態樣中,本發明提供一種用於操作一音訊編碼器之方法,該音訊編碼器用於產生包含一或多個音訊通道及/或一或多個音訊物件之一音訊位元串流,該音訊編碼器包含用於產生一元資料位元串流之一元資料編碼器,該方法包含以下步驟:該元資料編碼器接收至少一動態範圍控制增益序列,該至少一動態範圍控制增益序列包含針對一音訊解碼器之一動態範圍控制級的一或多個動態範圍控制增益;該元資料編碼器接收至少一引導裁切防止增益序列,該至少一引導裁切防止增益序列包含針對該音訊解碼器之一引導裁切防止級的一或多個引導裁切防止增益;以及該元資料編碼器將該等動態範圍控制增益序列中之至少一者及該等引導裁切防止增益序列中之至少一者併入到該元資料位元串流中。
在又一態樣中,本發明提供一種用於在於一電腦或一處理器上執行時執行前述方法的電腦程式。
在又一態樣中,本發明提供一種用於解碼一音訊位元串流及與該音訊位元串流相關之一元資料位元串流的音訊解碼器,該等位元串流係特別是藉由根據本發明之一音訊編碼器產生,該音訊解碼器包含:一音訊處理鏈,其經組配以接收得自該音訊位元串流之一經解碼音訊信號且調整該音訊處理鏈之一音訊輸出信號的特性,該音訊處理鏈包含多個調整級,該多個調整級包括用於調整該音訊輸出信號之一動態範圍的一動態範圍
控制級及用於防止該音訊輸出信號之裁切的一引導裁切防止級;以及一元資料解碼器,其經組配以接收該元資料位元串流且自該元資料位元串流提取動態範圍控制增益序列及引導裁切防止增益序列,該等動態範圍控制增益序列之至少一部分被供應至該動態範圍控制級,且該等引導裁切防止增益序列之至少一部分被供應至該引導裁切防止級。
元資料解碼器(例如)自統一之話音及音訊寫碼解碼器接收含有壓縮之動態範圍控制增益序列及引導裁切防止增益序列的元資料位元串流。
元資料解碼器自壓縮之元資料位元串流產生所要的動態範圍控制增益序列。另外,可應用所得之動態範圍控制增益的縮放或映射。
元資料解碼器另外自含有壓縮之引導裁切防止元資料的位元串流產生所要之引導裁切防止增益序列。可應用引導裁切防止增益之縮放或映射。若音訊解碼器目標位準低於已用於在音訊編碼器處判定引導裁切防止增益序列的目標位準,則此為特別有用的。接著,引導裁切防止增益之映射係可能的,其最佳地還原信號餘裕空間同時仍確保在音訊解碼器輸出信號處不發生裁切。
動態範圍控制級直接或間接地自元資料解碼器接收針對每一音訊訊框之未經壓縮且視情況經縮放或映射的動態範圍控制增益序列。元資料解碼器亦可確保按對應於音訊樣本之時間解析度的時間解析度內插最終時域動態
範圍控制增益值。此等最終動態範圍控制增益接著被應用至經解碼音訊信號,其中遵守某一動態範圍控制序列至正確通道或物件群組之指派。
引導裁切防止級直接或間接地自元資料解碼器接收針對每一音訊訊框之未經壓縮且視情況經縮放或映射的引導裁切防止增益序列。元資料解碼器亦可確保按對應於音訊樣本之時間解析度的時間解析度內插最終時域引導裁切防止增益值。此等最終引導裁切防止增益接著被應用至經解碼音訊信號,其中遵守某一引導裁切防止序列至正確通道群組之指派。
本發明在音訊解碼器側處提供靈活性,而將對整個處理鏈之控制交予編碼器側。用於動態範圍控制及引導裁切防止之元資料的分離允許對增益中之每一者的單獨修改(縮放或映射),該修改取決於音訊解碼器組態及播放情境。
若動態範圍控制增益與引導裁切防止增益分開傳輸,則本發明允許將動態範圍控制增益序列之基礎動態範圍控制特性自重度壓縮改變為輕度壓縮。此可藉由對動態範圍控制增益序列之值的適當之縮放或映射來達成。
在解碼器目標位準低於用於在編碼器處計算針對引導裁切防止之增益的目標位準之情況下,可藉由適當地縮放引導裁切防止增益而在解碼器處允許減小信號峰值之衰減。接著,與以未修改方式應用引導裁切防止增益之狀況相比,可維持或至少增加強信號峰值之位準,此意謂
可保留可用的餘裕空間。
根據本發明之較佳實施例,元資料解碼器經組配以自元資料位元串流提取針對同一音訊訊框之包含不同動態範圍控制增益的至少兩個動態範圍控制增益序列。
關於哪些動態範圍控制特性與不同動態範圍控制增益序列相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
藉由此等特徵,有可能針對音軌之通道提供多個動態範圍控制增益序列,以便允許實現在解碼器處的具有不同壓縮特性的輸出信號。
根據本發明之較佳實施例,元資料解碼器經組配以自元資料位元串流提取包含與不同音訊通道及/或與不同音訊物件相關的至少兩個動態範圍控制增益之動態範圍控制增益序列。
在每一動態範圍控制序列內,有可能針對不同通道或通道之群組定義一組不同的動態範圍控制增益,每一通道通常與正好一個通道群組相關聯。舉例而言,在多通道電影聲音中,常常需要將特定動態範圍控制增益應用至對話通道。可藉由使用不同動態範圍控制增益來處理諸如左前、右前、左後、右後之剩餘通道。
根據通道狀況類推,可支援與音訊物件或物件之群組相關聯的多個動態範圍控制序列。此等物件相關動態範圍控制序列亦可被視為與動態範圍控制增益之通道相關
集合內的特定通道群組相關聯。音訊物件一詞在本文中係關於諸如門鈴之單源聲音。
根據本發明之較佳實施例,元資料解碼器經組配以自元資料位元串流提取包含與音訊解碼器之不同頻帶相關的至少兩個動態範圍控制增益之動態範圍控制增益序列。
在支援多頻帶動態範圍控制之可選擴展中,元資料解碼器可經擴展以亦接受針對不同頻帶具有不同動態範圍控制增益的動態範圍控制增益序列作為輸入。
在多頻帶動態範圍控制擴展之狀況下,時域音訊信號必須在應用多頻帶動態範圍控制增益之前變換為適當的頻域表示。
關於哪些動態範圍控制特性與不同之動態範圍控制增益序列相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
根據本發明之較佳實施例,元資料解碼器經組配以自元資料位元串流提取包含不同之引導裁切防止增益的至少兩個引導裁切防止增益序列。
藉由此等特徵,有可能針對音軌提供多個引導裁切防止增益序列,以便匹配相應之動態範圍控制增益序列。
根據本發明之較佳實施例,元資料解碼器經組配以自元資料位元串流提取包含與不同音訊通道及/或與不同音訊物件相關的至少兩個引導裁切防止增益之引導裁切
防止增益序列。
如同動態範圍控制增益,有可能在每一引導裁切防止序列內針對不同通道或通道之群組定義一組不同的引導裁切防止增益,其中每一通道通常與正好一個通道群組相關聯。在典型操作模式中,相同的引導裁切防止增益被應用至所有通道。
針對物件之引導裁切防止增益序列的定義與動態範圍控制狀況相似。
根據本發明之較佳實施例,音訊解碼器進一步包含元資料及參數控制級,該元資料及參數控制級經組配以基於自組態提供級所接收之組態資訊將元資料及參數提供至調整級中的至少一者。
在音訊解碼器處之元資料及參數控制級可根據所要之動態範圍控制增益序列選擇元資料位元串流之正確部分。縮放及映射資訊亦可為解碼器組態資訊之部分或得自解碼器組態資訊。
以此類推,在音訊解碼器處之元資料及參數控制級根據所要之引導裁切防止增益序列選擇位元串流之正確部分。
根據本發明之較佳實施例,元資料及參數控制級經組配以在接收到多個動態範圍控制增益序列之情況下選擇將該多個動態範圍控制增益序列中之哪一者供應至動態範圍控制級。元資料及參數控制級對動態範圍控制序列之選擇可基於解碼器組態資訊,諸如通道佈局、降混指令、
物件元資料、動態範圍控制指令、響度資訊及解碼器目標位準。
根據本發明之較佳實施例,元資料及參數控制級經組配以在接收到多個引導裁切防止增益序列之情況下選擇將該多個引導裁切防止增益序列中之哪一者供應至引導裁切防止級。
元資料及參數控制區塊對引導裁切防止增益序列之選擇通常係基於上文所述之音訊解碼器組態資訊。
根據本發明之較佳實施例,在信號流之方向上的動態範圍控制級為音訊調整鏈之第一調整級。
用於通道之動態範圍控制處理可在經解碼音訊通道之可能的降混或格式轉換之前執行,以便允許針對通道群組實現不同增益。因此,在呈現之前將動態範圍控制增益應用至物件。在通道及物件兩者皆存在之情況下,動態範圍控制處理之位置保持相同:通道相關動態範圍控制應緊接在格式轉換器級之前執行,而物件相關動態範圍控制係在物件呈現器之前執行。
根據本發明之較佳實施例,音訊調整鏈包含經組配以調整音訊輸出信號之通道組態的格式轉換器級。亦被稱為降混器(DMX)之格式轉換器級經組配以調適音訊輸出信號之通道組態以適應用於播放之換能器。舉例而言,格式轉換器級可將5.1環繞信號轉換為立體聲信號。
根據本發明之較佳實施例,音訊調整鏈包含經組配以正規化音訊輸出信號之響度的響度正規化級。
響度正規化級可縮放其音訊輸入信號,使得輸出信號具有正確的目標響度位準。縮放因子得自程式參考位準(PRL)與解碼器目標位準(DTL)之間的差,且由解碼器之元資料及參數控制提供至響度正規化區塊。程式參考位準可自包括於(例如)檔案標頭中之響度資訊獲得,而解碼器目標位準為解碼器組態參數。可能在響度資訊內提供多個程式參考位準值,其中每一者對應於所應用動態範圍控制序列及/或所應用降混之特定組態。在此狀況下,元資料及參數控制級在考慮給定音訊解碼器組態之同時挑選正確的程式參考位準值。響度處理步驟之位置取決於音訊解碼器之實際輸出組態。一般而言,若適用,則響度正規化應(例如)在混頻器之後或在格式轉換之後對音訊解碼器之輸出通道執行。
根據本發明之較佳實施例,音訊調整鏈包含峰值限制器級,該峰值限制器級經組配以在臨限值被超過之情況下限制音訊輸出信號的峰值。
根據本發明之較佳實施例,在信號流之方向上的峰值限制器級為音訊調整鏈之最後調整級。
在典型音訊解碼器之音訊處理鏈中存在不可避免之樣本裁切的數個可能源,包括:
●參數寫碼工具
●立體聲處理
●降混、格式轉換、呈現
●響度正規化(尤其針對高目標位準)
●在解碼器輸出端處之量化
峰值限制器級因此被置於音訊解碼器之處理鏈的極末端處以(例如)恰好在時域輸出信號自浮點轉換為定點脈碼調變格式(PCM格式)之前防止音訊樣本的任何不合需要之裁切。此亦意謂在先前章節中所述之任何動態範圍控制級及響度正規化級位於峰值限制器級之前。在MPEG-H 3D音訊[M30324]之內容脈絡中,峰值限制器級接收不同的信號作為輸入,此取決於實際播放組態。在立體聲呈現之狀況下,耳機之兩個輸出通道可藉由峰值限制器級處理。若混頻器之輸出通道被直接播放,則峰值限制器級可處理相應之揚聲器通道。相同情形適用於首先藉由格式轉換器將混頻器輸出通道轉換為不同揚聲器組態(例如,降混)的情況。
峰值限制器級可偵測時域信號中超過限制臨限值之音訊樣本,且將位準降低應用至各別信號部分以使得音訊輸出信號之樣本始終保持在限制臨限值以下。為了防止可聽失真,位準降低應逐漸地執行,亦即,應用於信號之增益因子可僅隨時間緩慢地改變,此係藉由增益平滑濾波器確保。亦使用在應用限制器增益因子之前峰值限制器級之輸入信號的前瞻延遲以便允許在急劇信號峰值之前已開始的增益之平滑減小。可根據給定要求調整延遲,實用的選擇為5ms。在多通道音訊之狀況下,可將共同增益因子應用至所有音訊通道以降低計算複雜性。
若解碼器組態暗示在音訊處理鏈中不會發生裁
切,則可利用可包括於檔案標頭之響度資訊中的關於音訊信號之最大峰值的資訊以捨棄峰值限制器級。(例如)若音訊解碼器以浮點精度輸出音訊樣本且在播放裝置之音訊鏈中的稍後點處執行裁切防止,則峰值限制器級亦可被捨棄。明顯地,若針對給定播放情境之解碼器組態允許應用正確之引導裁切防止增益,則亦可在不發生額外編碼解碼器裁切之情況下停用峰值限制器級。
實務上,峰值限制器可被視為必需組件。在解碼器之音訊處理鏈內存在眾多之裁切源。可藉由提供引導裁切防止增益序列而涵蓋特殊組態。然而,為了解碼器之靈活操作,可提供峰值限制器以確保不發生裁切。
根據本發明之較佳實施例,音訊調整鏈包含經組配以將音訊物件混頻至音訊輸出信號之通道中的物件呈現器級。
根據本發明之較佳實施例,音訊調整鏈包含經組配以調整音訊輸出信號之特性以適應用於再生音訊輸出信號之換能器系統的換能器調適級。
為了降低峰值限制器級之所要求限制強度,(例如)藉由等化濾波器所實施之頻率相依換能器調適處理可包括於處理鏈中。
換能器調適級接收音訊輸入信號及關於用於再生之換能器(揚聲器或耳機)之特性的資訊。
尤其當換能器具有有限頻率範圍且藉此將限制音訊輸出信號之頻率範圍時,換能器調適級之任務係將音
訊輸出信號調適為適應換能器特性。藉由在峰值限制級之前使用模仿換能器之傳送功能的適當濾波器來限制頻率範圍,峰值限制器級之輸入信號在位準上降低。因此,超過限制臨限值之信號峰值在位準上降低。因此,峰值限制級之效應係較不劇烈的。此係有利的,因為- 峰值限制可可聽地改變信號,而換能器調適並不將可聽改變引入至信號中,且- 當信號經修改以使得最大峰值位準在限制臨限值以下時,峰值限制器將引入較小的計算負載。
除了濾波之外,換能器調適級亦可包括信號自適應性處理,使得換能器之頻帶限製得以補償。尤其,極小的換能器不能夠再生低頻信號。
可(例如)藉由人工地產生及添加低頻音調之諧波至信號以增加換能器之所感知低音回應而補償此情況。
在又一態樣中,本發明提供一種用於操作一音訊解碼器,特別是如申請專利範圍之音訊解碼器的方法,該音訊解碼器用於解碼一音訊位元串流及與該音訊位元串流相關之元資料位元串流,該等位元串流係特別是藉由如請求項1至9中一項之音訊編碼器產生,該方法包含以下步驟:自該音訊位元串流導出一經解碼音訊信號;使用具有多個調整級的音訊處理鏈,該多個調整級用於調整該音訊處理鏈之一音訊輸出信號之特性,包括藉由為該調整鏈之一調整級的一動態範圍控制級調整該音訊輸出信號之一動態範圍,及藉由為該調整鏈之一調整級的一
引導裁切防止級防止該音訊輸出信號的裁切;一元資料解碼器接收該元資料位元串流且自該元資料位元串流提取動態範圍控制增益序列及引導裁切防止增益序列;將該等動態範圍控制增益序列之至少一部分供應至該動態範圍控制級;以及將該等引導裁切防止增益序列之至少一部分供應至該引導裁切防止級。
在又一態樣中,本發明提供一種用於在於一電腦或一處理器上執行時執行前述方法的電腦程式。
依據本發明之一實施例,係特地提出一種用於產生包含一或多個音訊通道(AC)及/或一或多個音訊物件(AO)之一音訊位元串流的音訊編碼器,該音訊編碼器包含用於產生一元資料位元串流(MBS)之一元資料編碼器,該音訊編碼器經組配以:接收針對一音訊訊框之至少一動態範圍控制增益序列(DS),其包含針對一音訊解碼器之一動態範圍控制級的一或多個動態範圍控制增益;接收針對該音訊訊框之至少一引導裁切防止增益序列(GS),其包含針對該音訊解碼器之一引導裁切防止級的一或多個引導裁切防止增益;以及將該等動態範圍控制增益序列(DS)中之至少一者及該等引導裁切防止增益序列(GS)中之至少一者併入到該元資料位元串流(MBS)中。
1‧‧‧音訊編碼器
10‧‧‧格式轉換器級
11‧‧‧響度正規化級
12‧‧‧峰值限制器級
13‧‧‧物件呈現器級
14‧‧‧換能器調適級
2‧‧‧元資料編碼器
3‧‧‧音訊解碼器
4‧‧‧音訊處理鏈
5‧‧‧動態範圍控制級
6‧‧‧引導裁切防止級
7‧‧‧元資料解碼器
8‧‧‧元資料及參數控制級
9‧‧‧組態提供級
AC‧‧‧音訊通道
AO‧‧‧音訊物件
AOS‧‧‧音訊輸出信號
CI‧‧‧組態資訊
CLA‧‧‧通道佈局
DAS‧‧‧經解碼音訊信號
DI‧‧‧降混指令
DS‧‧‧動態範圍控制增益序列
DTL‧‧‧解碼器目標位準
GS‧‧‧引導裁切防止增益序列
GSS‧‧‧增益序列選擇信號
ICT‧‧‧關於換能器之特性的資訊
IGS‧‧‧響度正規化級之輸出信號
IPL‧‧‧峰值限制器級之輸入信號
IS‧‧‧針對峰值限制器級之最大峰值
ISG‧‧‧得自經解碼音訊信號之信號
ITA‧‧‧換能器調適級之輸入信號
MBS‧‧‧元資料位元串流
OCF‧‧‧格式轉換器級或物件呈現器級之輸出
OMD‧‧‧物件元資料
PRL‧‧‧程式參考位準
將隨後關於隨附圖式來論述本發明之較佳實施例,其中:圖1以示意圖說明根據本發明之音訊編碼器的實施例;圖2以示意圖說明根據本發明之音訊解碼器的第一實施例;圖3以示意圖說明根據本發明之音訊解碼器的第二實施例;圖4以示意圖說明根據本發明之音訊解碼器的第三實施例;以及圖5以示意圖說明根據本發明之音訊解碼器的第四實施例。
圖1以示意圖說明根據本發明之音訊編碼器1的實施例。圖1說明動態範圍控制增益序列及引導裁切防止增益序列之編碼。
音訊編碼器1經組配以產生包含一或多個音訊通道AC及/或一或多個音訊物件AO之音訊位元串流,音訊編碼器1包含用於產生元資料位元串流MBS之元資料編碼器2,該元資料編碼器2經組配以:接收針對音訊訊框之至少一動態範圍控制增益序列DS,其包含針對音訊解碼器3(參見圖2)之動態範圍控制級5(參見圖2)的一或多個動態範圍控制增益;接收針對該音訊訊框之至少一引導裁切防止增益序列
GS,該引導裁切防止增益序列GS包含針對音訊解碼器3之引導裁切防止級6(參見圖2)的一或多個引導裁切防止增益;以及將該等動態範圍控制增益序列DS中之至少一者及該等引導裁切防止增益序列GS中之至少一者併入到元資料位元串流MBS中。
發明性概念係基於若干處理區塊之組合,該等區塊一起提供用於動態範圍壓縮(DRC)及引導裁切防止(gCP)之聯合解決方案的所要求功能性。
發明性概念尤其適合於如(例如)在[M30100,M30101]中所定義的相關之組態資訊已在音訊編碼器1處及在音訊解碼器3處可用的音訊系統。此資訊可(例如)包括於用於基於檔案之傳輸的標頭中或統一之話音及音訊寫碼(USAC)組態擴展中。組態資訊可包括通道佈局、降混指令(例如,降混係數)、動態範圍控制指令(例如,所應用之動態範圍控制特性、用於播放軌之動態範圍控制增益序列的數目),及響度資訊(例如,程式響度、錨定響度、真實峰值)。更多細節可在[M30100,M30101]中找到。相同情況適用於相應之引導裁切防止指令,該等指令可以與動態範圍控制指令框之資訊相同的方式加以處置。
根據本發明之音訊編碼器1能夠產生包含針對音訊解碼器3之動態範圍控制級5的動態範圍控制增益序列DS以及針對音訊解碼器3之引導裁切防止級6的引導裁切防止增益序列GS之元資料位元串流MBS,其中動態範圍控制增
益序列DS可與引導裁切防止增益序列GS分開傳輸。
元資料編碼器使用(例如)藉由由內容提供者所操作之外部工具在外部提供的動態範圍控制增益序列DS作為輸入。
動態範圍控制增益之可能時間解析度可在幾個樣本之範圍內。動態範圍控制增益值通常可藉由達至0.125dB之足夠解析度來表示。
另外,元資料編碼器採用引導裁切防止增益序列GS作為輸入。
經壓縮之動態範圍控制增益序列DS及引導裁切防止增益序列GS可作為包括於統一之話音及音訊寫碼擴展有效負載中的旁側資訊傳輸至接收器。
應注意,動態範圍控制增益序列DS應僅包括動態範圍控制增益以執行動態範圍壓縮,而用於裁切防止之引導裁切防止增益係由引導裁切防止增益序列GS容納。
引導裁切防止增益之時間解析度可與動態範圍控制增益之時間解析度相同。
引導裁切防止增益序列GS用以確保針對特定目標位準及降混/格式轉換器組態在音訊解碼器3之音訊輸出信號AOS(參見圖2)處不發生樣本裁切。每一引導裁切防止增益序列GS可針對特定降混/格式轉換器組態、特定目標位準,及針對通道之特定動態範圍控制增益序列連同針對物件之特定動態範圍控制增益序列的組合來最佳化。關於哪一引導裁切防止增益序列GS與哪一動態範圍控制增益序列
DS相關聯之資訊可包括於含於統一之話音及音訊寫碼組態擴展之檔案標頭中的引導裁切防止指令中。其亦可包括與引導裁切防止增益的已在音訊編碼器1處加以判定之目標位準相關的資訊。
用於上文所述之動態範圍處理的發明性概念表示對整個音訊處理鏈4(參見圖2)之音訊編碼器側控制的方法。用於動態範圍控制及引導裁切防止之元資料的分離允許對增益中之每一者的單獨修改(縮放或映射),該修改取決於音訊解碼器組態及播放情境。
在發明性概念之情況下,若動態範圍控制增益與引導裁切防止增益GS分開傳輸,則有可能將動態範圍控制增益序列DS之基礎動態範圍控制特性自重度壓縮改變為輕度壓縮。此可藉由對動態範圍控制增益序列DS之值的適當縮放或映射來達成。
發明性概念給予內容提供者對音訊解碼器3之最終音訊輸出信號AOS的完全控制,以便滿足給定之品質要求。在此狀況下,可針對被視為最重要的特定音訊解碼器組態而包括動態範圍控制增益序列DS及引導裁切防止增益序列GS兩者。在許多狀況下,可歸因於對動態範圍控制增益序列DS及引導裁切防止增益序列GS之組合使用而捨棄峰值限制器級12。必須注意,在音訊解碼器側處之引導裁切防止(其係藉由簡單地應用引導裁切防止增益而達成)與使用峰值限制器12相比在計算上更有效率。
根據本發明之較佳實施例,元資料編碼器2經組
配以接收針對同一音訊訊框之包含不同動態範圍控制增益的至少兩個動態範圍控制增益序列DS,且將包含不同動態範圍控制增益的該至少兩個動態範圍控制增益序列DS併入到元資料位元串流MBS中。
關於哪些動態範圍控制特性與不同之動態範圍控制增益序列DS相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
藉由此等特徵,有可能針對音軌之通道提供多個動態範圍控制增益序列DS,以便允許實現在音訊解碼器3處的具有不同壓縮特性的輸出信號。
根據本發明之較佳實施例,元資料編碼器經組配以接收包含與不同音訊通道AC及/或與不同音訊物件AO相關的至少兩個動態範圍控制增益之動態範圍控制增益序列DS,元資料編碼器2經組配以將與不同音訊通道AC及/或與不同音訊物件AO相關的該至少兩個動態範圍控制增益DS及視情況動態範圍控制增益與音訊通道AC及/或音訊物件AO之關係併入到元資料位元串流MBS中。
在每一動態範圍控制序列DS內,有可能針對不同音訊通道AC或音訊通道AC之群組定義一組不同的動態範圍控制增益,其中每一音訊通道AC通常與正好一個通道群組相關聯。舉例而言,在多通道電影聲音中,常常需要將特定動態範圍控制增益應用至對話通道。可藉由使用不同動態範圍控制增益來處理諸如左前、右前、左後、右後
之剩餘通道。
根據通道狀況類推,可支援與音訊物件AO或物件AO之群組相關聯的多個動態範圍控制序列DS。此等物件相關動態範圍控制序列DS亦可被視為與動態範圍控制增益之通道相關集合內的特定通道群組相關聯。音訊物件一詞在本文中係關於諸如門鈴之單源聲音。
關於哪些動態範圍控制特性與不同之動態範圍控制增益序列DS相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
根據本發明之較佳實施例,元資料編碼器2經組配以接收包含與音訊解碼器之不同頻帶相關的至少兩個動態範圍控制增益之動態範圍控制增益序列DS,元資料編碼器2經組配以將與音訊解碼器3之不同頻帶相關的該至少兩個動態範圍控制增益DS及視情況動態範圍控制增益與音訊解碼器3之頻帶的關係併入到元資料位元串流MBS中。
在支援多頻帶動態範圍控制之可選擴展中,元資料編碼器2可經擴展以亦接受針對不同頻帶具有不同動態範圍控制增益的動態範圍控制增益序列DS作為輸入。
關於哪些動態範圍控制特性與不同之動態範圍控制增益序列DS相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
根據本發明之較佳實施例,元資料編碼器經組配
以接收包含不同引導裁切防止增益的至少兩個引導裁切防止增益序列GS,且將包含不同引導裁切防止增益的該至少兩個引導裁切防止增益序列GS併入到元資料位元串流MBS中。
根據本發明之較佳實施例,每一動態範圍控制序列DS與引導裁切防止增益序列GS中之一者相關,元資料編碼器2經組配以將動態範圍控制序列DS與引導裁切防止增益序列GS之間的關係併入到元資料位元串流MBS中。
根據本發明之較佳實施例,元資料編碼器經組配以接收包含與不同音訊通道AC及/或與不同音訊物件AO相關的至少兩個引導裁切防止增益之引導裁切防止增益序列GS,元資料編碼器2經組配以將包含與不同音訊通道AC及/或與不同音訊物件AO相關的至少兩個引導裁切防止增益之引導裁切防止序列GS及視情況引導裁切防止增益與音訊通道AC及/或音訊物件AO之關係併入到元資料位元串流MBS中。
如同動態範圍控制增益,有可能在每一引導裁切防止序列GS內針對不同音訊通道AC或音訊通道AC之群組定義一組不同的引導裁切防止增益,其中每一音訊通道AC通常與正好一個音訊通道群組相關聯。在典型操作模式中,將相同的引導裁切防止增益應用至所有音訊通道AC。
針對音訊物件AO之引導裁切防止增益序列的定義與動態範圍控制狀況相似。
在另一態樣中,本發明提供一種用於操作音訊編
碼器1之方法,音訊編碼器1用於產生包含一或多個音訊通道及/或一或多個音訊物件之音訊位元串流,該音訊編碼器包含用於產生元資料位元串流MBS之元資料編碼器2,該方法包含以下步驟:元資料編碼器2接收至少一動態範圍控制增益序列DS,其包含針對音訊解碼器3之動態範圍控制級5的一或多個動態範圍控制增益;元資料編碼器2接收至少一引導裁切防止增益序列GS,其包含針對音訊解碼器3之引導裁切防止級6的一或多個引導裁切防止增益;以及元資料編碼器2將該等動態範圍控制增益序列DS中之至少一者及該等引導裁切防止增益序列GS中之至少一者併入到元資料位元串流MBS中。
在又一態樣中,本發明提供一種用於在於一電腦或一處理器上執行時執行前述方法的電腦程式。
用於解碼器側處理之以下諸圖係基於如[M30324]中提出之針對3D音訊寫碼方法的提議。
圖2以示意圖說明根據本發明之音訊解碼器3的第一實施例。
用於解碼音訊位元串流及與該音訊位元串流相關之元資料位元串流MBS的音訊解碼器3,該等位元串流係特別是藉由根據本發明之音訊編碼器1產生,音訊解碼器3包含:音訊處理鏈4,其經組配以接收得自該音訊位元串流之
經解碼音訊信號DAS且經組配以調整音訊處理鏈4之音訊輸出信號AOS的特性,音訊處理鏈4包含多個調整級5、6、10、11、12、13、14(亦參見圖3、圖4、圖5),該多個調整級包括用於調整音訊輸出信號AOS之動態範圍的動態範圍控制級5及用於防止音訊輸出信號AOS之裁切的引導裁切防止級6;以及元資料解碼器7,其經組配以接收元資料位元串流MBS且經組配以自元資料位元串流MBS提取動態範圍控制增益序列DS及引導裁切防止增益序列GS,動態範圍控制增益序列DS之至少一部分被供應至動態範圍控制級5,且引導裁切防止增益序列GS之至少一部分被供應至引導裁切防止級6。
元資料解碼器7(例如)自統一之話音及音訊寫碼解碼器接收含有壓縮之動態範圍控制增益序列DS及引導裁切防止增益序列GS的元資料位元串流MBS。
元資料解碼器7自壓縮之元資料位元串流MBS產生未經壓縮之動態範圍控制增益序列DS。另外,可應用所得之動態範圍控制增益的縮放或映射。
元資料解碼器7另外自含有壓縮之引導裁切防止元資料的位元串流MBS產生未經壓縮之引導裁切防止增益序列GS。可應用引導裁切防止增益之縮放或映射。若音訊解碼器目標位準低於已用於在音訊編碼器1處判定引導裁切防止增益序列GS的目標位準,則此為特別有用的。接著,引導裁切防止增益之映射係可能的,其最佳地還原信號餘裕空間同時仍確保在音訊解碼器輸出信號AOS處不發生裁
切。
動態範圍控制級5直接或間接地自元資料解碼器7接收針對每一音訊訊框之未經壓縮且視情況經縮放或映射的動態範圍控制增益序列DS。元資料解碼器7亦可確保按對應於音訊樣本之時間解析度的時間解析度內插最終時域動態範圍控制增益值。此等最終動態範圍控制增益可接著應用至經解碼音訊信號DAS,其中遵守某一動態範圍控制序列至通道及/或物件之指派。
引導裁切防止級6直接或間接地自元資料解碼器7接收針對每一音訊訊框之未經壓縮且視情況經縮放或映射的引導裁切防止增益序列GS。元資料解碼器7可亦確保按對應於音訊樣本之時間解析度的時間解析度內插最終時域引導裁切防止增益值。此等最終引導裁切防止增益可接著應用至經解碼音訊信號或得自經解碼音訊信號DAS之信號ISG(或圖3、圖4及圖5中之IGS),其中遵守某一引導裁切防止序列至通道及/或物件之指派。
本發明在音訊解碼器側處提供靈活性,而將對整個處理鏈之控制交予編碼器側。用於動態範圍控制及引導裁切防止之元資料的分離允許對增益中之每一者的單獨修改(縮放或映射),該修改取決於音訊解碼器組態及播放情境。
若動態範圍控制增益與引導裁切防止增益分開傳輸,則本發明允許將動態範圍控制增益序列DS之基礎動態範圍控制特性自重度壓縮改變為輕度壓縮。此可藉由動
態範圍控制增益序列DS之值的適當縮放或映射來達成。
在解碼器目標位準低於用於在音訊編碼器1處計算針對引導裁切防止之增益的目標位準之情況下,可藉由適當地縮放引導裁切防止增益而在音訊解碼器3處允許減小信號峰值的衰減。接著,與以未修改方式應用引導裁切防止增益之狀況相比,可維持或至少增加強信號峰值之位準,此意謂可保留可用的餘裕空間。
根據本發明之較佳實施例,元資料解碼器7經組配以自元資料位元串流MBS提取針對同一音訊訊框之包含不同動態範圍控制增益的至少兩個動態範圍控制增益序列DS。
關於哪些動態範圍控制特性與不同之動態範圍控制增益序列DS相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
藉由此等特徵,有可能針對音軌之通道提供多個動態範圍控制增益序列DS,以便允許實現在解碼器1處的具有不同之壓縮特性的音訊輸出信號AOS。
根據本發明之較佳實施例,元資料解碼器7經組配以自元資料位元串流MBS提取包含與音訊解碼器3之不同頻帶相關的至少兩個動態範圍控制增益之動態範圍控制增益序列DS。
在支援多頻帶動態範圍控制之可選擴展中,元資料解碼器7可經擴展以亦接受針對不同頻帶具有不同動態
範圍控制增益的動態範圍控制增益序列DS作為輸入。
在多頻帶動態範圍控制擴展之狀況下,時域音訊信號必須在應用多頻帶動態範圍控制增益之前變換為適當的頻域表示。
關於哪些動態範圍控制特性與不同之動態範圍控制增益序列DS相關聯的資訊可包括於在基於檔案之遞送的狀況下含於檔案標頭中的動態範圍控制指令中或統一之話音及音訊寫碼組態擴展中。
根據本發明之較佳實施例,元資料解碼器7經組配以自元資料位元串流MBS提取包含不同之引導裁切防止增益的至少兩個引導裁切防止增益序列GS。
藉由此等特徵,有可能針對音軌提供多個引導裁切防止增益序列GS,以便匹配相應之動態範圍控制增益序列DS。
在又一態樣中,本發明提供一種用於操作音訊解碼器3,特別是根據本發明之音訊解碼器3的方法,音訊解碼器3用於解碼音訊位元串流及與該音訊位元串流相關之元資料位元串流MBS,該等位元串流係特別是藉由根據本發明之音訊編碼器產生,該方法包含以下步驟:自該音訊位元串流導出經解碼音訊信號DAS;使用具有多個調整級5、6、10、11、12、13、14的音訊處理鏈,該多個調整級用於調整音訊處理鏈4之音訊輸出信號AOS之特性,包括藉由為調整鏈4之調整級5的動態範圍控制級5調整音訊輸出信號AOS之動態範圍,及藉由為調
整鏈4之調整級6的引導裁切防止級6防止音訊輸出信號AOS的裁切;元資料解碼器7接收元資料位元串流MBS且自元資料位元串流MBS提取動態範圍控制增益序列DS及引導裁切防止增益序列GS;將動態範圍控制增益序列DS之至少一部分供應至動態範圍控制級5;以及將引導裁切防止增益序列GS之至少一部分供應至引導裁切防止級6。
在又一態樣中,本發明提供一種用於在於一電腦或一處理器上執行時執行前述方法的電腦程式。
圖3以示意圖說明根據本發明之音訊解碼器3的第二實施例。
根據本發明之較佳實施例,元資料解碼器7經組配以自元資料位元串流MBS提取包含與不同音訊通道相關的至少兩個動態範圍控制增益之動態範圍控制增益序列DS。
在每一動態範圍控制序列DS內,有可能針對不同通道或通道之群組定義一組不同的動態範圍控制增益,每一通道通常與正好一個通道群組相關聯。舉例而言,在多通道電影聲音中,常常需要將特定動態範圍控制增益應用至對話通道。諸如左前、右前、左後、右後之剩餘通道(例如)可藉由使用不同動態範圍控制增益來處理。
根據本發明之較佳實施例,元資料解碼器7經組
配以自元資料位元串流MBS提取包含與不同之音訊通道相關的至少兩個引導裁切防止增益之引導裁切防止增益序列GS。
如同動態範圍控制增益,有可能在每一引導裁切防止序列內針對不同通道或通道之群組定義一組不同的引導裁切防止增益,其中每一通道通常與正好一個通道群組相關聯。在典型操作模式中,相同的引導裁切防止增益被應用至所有通道。
根據本發明之較佳實施例,音訊解碼器3進一步包含元資料及參數控制級8,元資料及參數控制級8經組配以基於自組態提供級9(亦參見圖4及圖5)所接收之組態資訊將元資料及參數DS、GS、CLA、DI、DTL、PRL、IS、OMD、ICT提供至調整級5、6、10、11、12、13、14中之至少一者。
在音訊解碼器處之元資料及參數控制級8可藉由將增益序列選擇信號GSS發送至元資料解碼器7而根據所要之動態範圍控制增益序列DS選擇元資料位元串流MBS之正確部分。縮放及映射資訊亦可為解碼器組態資訊CI之部分或得自解碼器組態資訊CI。
以此類推,在音訊解碼器3處之元資料及參數控制級8根據所要之引導裁切防止增益序列GS選擇位元串流MBS之正確部分。
根據本發明之較佳實施例,元資料及參數控制級8經組配以在接收到多個動態範圍控制增益序列DS之情況下選擇將該多個動態範圍控制增益序列DS中之哪一者供應
至動態範圍控制級5。元資料及參數控制級8對動態範圍控制序列DS之選擇可基於諸如通道佈局CLA、降混指令DI、物件元資料OMD(參見圖4)、動態範圍控制指令、響度資訊PRL及解碼器目標位準DTL之解碼器組態資訊CI,且可藉由將增益序列選擇信號GSS發送至元資料解碼器7而執行。
根據本發明之較佳實施例,元資料及參數控制級8經組配以在接收到多個引導裁切防止增益序列GS之情況下選擇將該多個引導裁切防止增益序列GS中之哪一者供應至引導裁切防止級6。
元資料及參數控制區塊8對引導裁切防止增益序列GS之選擇通常係基於上文所述之音訊解碼器組態資訊CI。
根據本發明之較佳實施例,在信號流之方向上的動態範圍控制級5為音訊調整鏈4之第一調整級。
用於通道之動態範圍控制處理可在經解碼音訊通道AC之可能的降混或格式轉換之前執行,以便允許針對通道群組實現不同增益。因此,動態範圍控制增益在呈現(參見圖4)之前被應用至物件AO。在通道AC及物件AO兩者存在之情況下,動態範圍控制處理之位置保持相同:通道相關動態範圍控制應緊接在格式轉換器級10(參見圖4)之前執行,而物件相關動態範圍控制係在物件呈現器13(參見圖4)之前執行。
根據本發明之較佳實施例,音訊調整鏈4包含經組配以調整音訊輸出信號AOS之通道組態的格式轉換器級
10。亦被稱為降混器(DMX)之格式轉換器級10經組配以調適音訊輸出信號AOS之通道組配以適應於用於播放之換能器。舉例而言,格式轉換器級可將5.1環繞信號轉換為立體聲信號。
根據本發明之較佳實施例,音訊調整鏈4包含經組配以正規化音訊輸出信號AOS之響度的響度正規化級11。
響度正規化級11可縮放其音訊輸入信號OCF,使得輸出信號IGS具有正確的目標響度位準。縮放因子得自程式參考位準PRL與解碼器目標位準DTL之間的差且由解碼器之元資料及參數控制級8提供至響度正規化級11。程式參考位準PRL可自包括於(例如)檔案標頭中之響度資訊獲得,而解碼器目標位準為解碼器組態參數。可能在響度資訊內提供多個程式參考位準PRL值,其中每一者對應於所應用動態範圍控制序列DS及/或所應用降混之特定組態。在此狀況下,元資料及參數控制級8在考慮給定音訊解碼器組態之同時挑選正確的程式參考位準值PRL。響度處理步驟之位置取決於音訊解碼器3之實際輸出組態。一般而言,若適用,則響度正規化應(例如)在混頻器之後或在格式轉換級10之後對音訊解碼器3之輸出通道執行。
根據本發明之較佳實施例,音訊調整鏈4包含峰值限制器級12,峰值限制器級12經組配以在臨限值被超過之情況下限制音訊輸出信號AOS的峰值。
根據本發明之較佳實施例,在信號流之方向上的峰值限制器級12為音訊調整鏈4之最後調整級。
在典型音訊解碼器之音訊處理鏈4中存在不可避免之樣本裁切的數個可能源,包括:
●參數寫碼工具
●立體聲處理
●降混、格式轉換、呈現
●響度正規化(尤其針對高目標位準)
●在解碼器輸出端處之量化
峰值限制器級12因此置放於音訊解碼器3之處理鏈4的極末端處以(例如)恰好在時域輸出信號自浮點轉換為定點脈碼調變格式(PCM格式)之前防止音訊樣本的任何不合需要之裁切。此亦意謂在先前章節中所述之任何動態範圍控制級5及響度正規化級11位於峰值限制器級12之前。在MPEG-H 3D音訊[M30324]之內容脈絡中,峰值限制器級接收不同的信號IPL作為輸入,此取決於實際播放組態。在立體聲呈現之狀況下,用於耳機之兩個輸出通道可藉由峰值限制器級12處理。若混頻器之輸出通道被直接播放,則峰值限制器級12可處理相應之揚聲器通道。相同情形適用於混頻器輸出通道首先由格式轉換器10轉換為不同揚聲器組態(例如,降混)的情況。
峰值限制器級12可偵測時域信號中超過限制臨限值之音訊樣本,且將位準降低應用至各別信號部分以使得音訊輸出信號AOS之樣本始終保持在限制臨限值以下。為了防止可聽失真,位準降低應逐漸地執行,亦即,應用於信號之增益因子可僅隨時間緩慢地改變,此係藉由增益
平滑濾波器確保。在應用限制器增益因子之前峰值限制器級之輸入信號的前瞻延遲亦用以允許在急劇信號峰值之前已開始的增益之平滑減小。延遲可調整至給定要求,實際選擇為5ms。在多通道音訊之狀況下,可將共同增益因子應用至所有音訊通道以降低計算複雜性。
若解碼器組態暗示在音訊處理鏈中不會發生裁切,則可利用包括於檔案標頭之響度資訊中的關於音訊信號DAS之最大峰值IS的資訊以捨棄峰值限制器級12。(例如)若音訊解碼器3以浮點精度輸出音訊樣本且裁切防止在播放裝置之音訊鏈中於稍後點處執行,則峰值限制器級12亦可被捨棄。明顯地,若針對給定播放情境之解碼器組態允許應用正確之引導裁切防止增益,則亦可在不發生額外編碼解碼器裁切之情況下停用峰值限制器級。
實務上,峰值限制器12可被視為必需組件。在音訊解碼器3之音訊處理鏈內存在眾多之裁切源。可藉由提供引導裁切防止增益序列而涵蓋特殊組態。然而,為了解碼器之靈活操作,可提供峰值限制器以確保無裁切發生。
如圖3中所示,引導裁切防止處理可在音訊通道之格式轉換及響度正規化之後執行。若不應用格式轉換,則可將引導裁切防止增益直接應用至動態範圍控制級5之輸出ISG。
圖4以示意圖說明根據本發明之音訊解碼器的第三實施例。圖4描繪用於音訊物件AO之動態範圍控制處理的組態。動態範圍控制處理係在呈現之前對音訊物件信號
執行。響度正規化及裁切防止係在對通道之物件呈現之後執行。
根據本發明之較佳實施例,音訊調整鏈4包含經組配以將音訊物件AO混頻至音訊輸出信號AOS之通道中的物件呈現器級13。
根據本發明之較佳實施例,元資料解碼器7經組配以自元資料位元串流MBS提取包含與不同音訊物件AO相關的至少兩個動態範圍控制增益之動態範圍控制增益序列DS。
根據通道狀況類推,可支援與音訊物件或物件之群組相關聯的多個動態範圍控制序列DS。此等物件相關動態範圍控制序列亦可被視為與動態範圍控制增益之通道相關集合內的特定通道群組相關聯。音訊物件AO一詞在本文中係關於諸如門鈴之單源聲音。
根據本發明之較佳實施例,元資料解碼器7經組配以自元資料位元串流MBS提取包含與不同音訊物件相關的至少兩個引導裁切防止增益之引導裁切防止增益序列GS。
如同動態範圍控制增益,有可能在每一引導裁切防止序列內針對不同音訊物件或音訊物件之群組定義一組不同的引導裁切防止增益,其中每一通道通常與正好一個音訊物件相關聯。在典型操作模式中,相同的引導裁切防止增益被應用至所有音訊物件。
針對物件之引導裁切防止增益序列的定義與動
態範圍控制狀況相似。
圖5以示意圖說明根據本發明之音訊解碼器的第四實施例。
該概念之另一實現展示於圖5中,其中額外換能器調適區塊14包括於峰值限制器12之前。格式轉換器級10涉及降混處理步驟或在不同輸入/輸出通道組態之間的格式轉換。以此類推,換能器調適區塊可包括於根據圖4之物件相關處理鏈中。
根據本發明之較佳實施例,音訊調整鏈4包含經組配以調整音訊輸出信號AOS之特性以適應於用於再生音訊輸出信號之換能器系統的換能器調適級14。
為了降低峰值限制器級12之所要求限制強度,(例如)由等化濾波器實施之頻率相依換能器調適處理可包括於處理鏈4中。
換能器調適級14接收音訊輸入信號ITA及關於用於再生之換能器(揚聲器或耳機)之特性的資訊ICT。
尤其當換能器具有有限頻率範圍且藉此將限制音訊輸出信號之頻率範圍時,換能器調適級14之任務係調適音訊輸出信號AOS以適應換能器特性。藉由在峰值限制級12之前使用模仿換能器之傳送功能的適當濾波器來限制頻率範圍,峰值限制器級之輸入信號IPL的位準降低。因此,超過限制臨限值之信號峰值的位準降低。因此,峰值限制級12之效應係較不劇烈的。此係有利的,因為- 峰值限制可可聽地改變信號,而換能器調適並不將
可聽改變引入至信號中,且- 當信號經修改以使得最大峰值位準在限制臨限值以下時,峰值限制器將引入較小的計算負載。
除了濾波之外,換能器調適級14亦可包括信號自適應性處理,使得換能器之頻帶限製得到補償。尤其,極小的換能器不能夠再生低頻信號。
可(例如)藉由人工地產生及添加低頻音調之諧波至信號以增加換能器之所感知低音回應而補償此情況。
關於所描述實施例之解碼器、編碼器及方法,以下應被注意:儘管已在設備之內容脈絡中描述一些態樣,但清楚地,此等態樣亦表示相應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。相似地,在方法步驟之內容脈絡中所述的態樣亦表示相應設備之相應區塊或項目或特徵的描述。
取決於某些實施要求,本發明之實施例可以硬體或以軟體來實施。該實施可使用儲存有電子可讀控制信號之數位儲存媒體來執行,例如軟性磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,該等信號與可程式化電腦系統合作(或能夠合作)以使得執行各別方法。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等信號能夠與可程式化電腦系統合作以使得執行本文所述之方法中的一者。
一般而言,本發明之實施例可實施為具有程式碼
之電腦程式產品,該程式碼在電腦程式產品在電腦上執行時可操作以執行方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含用於執行本文所述之方法中之一者的電腦程式,該電腦程式儲存於機器可讀載體或非暫時性儲存媒體上。
換言之,發明性方法之實施例因此為電腦程式,該電腦程式具有當該電腦程式在電腦上執行時用於執行本文所述之方法中之一者的程式碼。
發明性方法之又一實施例因此為包含(記錄有)用於執行本文所述之方法中之一者的電腦程式之資料載體(或數位儲存媒體,或電腦可讀媒體)。
發明性方法之又一實施例因此為表示用於執行本文所述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可經組配以(例如)經由資料通訊連接(例如,經由網際網路)而傳送。
又一實施例包含經組配或調適以執行本文所述之方法中之一者的處理構件,例如電腦或可程式化邏輯裝置。
又一實施例包含安裝有用於執行本文所述之方法中之一者的電腦程式之電腦。
在一些實施例中,可程式化邏輯裝置(例如,場可程式化閘陣列)可用以執行本文所述之方法之功能性中的一些或全部。在一些實施例中,場可程式化閘陣列可與
微處理器合作以便執行本文所述之方法中的一者。一般而言,有利地藉由任何硬體設備執行方法。
儘管本發明已依據若干實施例加以描述,但存在屬於本發明之範疇的更改、置換及等效物。亦應注意,存在實施本發明之方法及組成物的許多替代性方式。因此,希望將以下所附申請專利範圍解譯為包括屬於本發明之真實精神及範疇內的所有此等更改、置換及等效物。
參考文獻:[M30100] ISO/IEC JTC1/SC29/WG11 M30100, "Proposed Revision of Audio aspects of WD: Addition of Sample aspect ratio and further audio code-points", July 2013, Vienna
[M30101] ISO/IEC JTC1/SC29/WG11 M30101, "Editors draft of 14496-12 PDAM 3-Enhanced audio and other improvements", July 2013, Vienna
[M30324] ISO/IEC JTC1/SC29/WG11 M30324, "Description of the Fraunhofer IIS Submission for the 3D-Audio CfP", July 2013, Vienna
[M28901] ISO/IEC JTC1/SC29/WG11 M28901, "Enhanced Metadata for Dynamic Range Compression", April 2013, Incheon, Korea
3‧‧‧音訊解碼器
4‧‧‧音訊處理鏈
5‧‧‧動態範圍控制級
6‧‧‧引導裁切防止級
7‧‧‧元資料解碼器
AC‧‧‧音訊通道
AOS‧‧‧音訊輸出信號
DAS‧‧‧經解碼音訊信號
DS‧‧‧動態範圍控制增益序列
GS‧‧‧引導裁切防止增益序列
ISG‧‧‧得自經解碼音訊信號之信號
MBS‧‧‧元資料位元串流
Claims (27)
- 一種音訊編碼器,用於產生包含一或多個音訊通道(AC)及/或一或多個音訊物件(AO)之一音訊位元串流,該音訊編碼器包含用於產生一元資料位元串流(MBS)之一元資料編碼器,該音訊編碼器係組配來:接收針對一音訊訊框之至少一動態範圍控制增益序列(DS),其包含用於一音訊解碼器之一動態範圍控制級的一或多個動態範圍控制增益;接收針對該音訊訊框之至少一引導裁切防止增益序列(GS),其包含用於該音訊解碼器之一引導裁切防止級的一或多個引導裁切防止增益;以及將該等動態範圍控制增益序列(DS)中之至少一者及該等引導裁切防止增益序列(GS)中之至少一者併入到該元資料位元串流(MBS)中。
- 如請求項1之音訊編碼器,其中該元資料編碼器經組配以接收針對同一音訊訊框之包含不同動態範圍控制增益的至少兩個動態範圍控制增益序列(DS),且將包含不同動態範圍控制增益的該至少兩個動態範圍控制增益序列(DS)併入到該元資料位元串流(MBS)中。
- 如請求項1之音訊編碼器,其中該元資料編碼器經組配以接收包含與不同音訊通道及/或與不同音訊物件相關的至少兩個動態範圍控制增益之一動態範圍控制增益序列(DS),且將包含與不同音訊通道及/或與不同音訊物 件相關的至少兩個動態範圍控制增益之該動態範圍控制增益序列(DS)及視情況該等動態範圍控制增益與該等音訊通道及/或該等音訊物件之關係併入到該元資料位元串流(MBS)中。
- 如請求項1之音訊編碼器,其中該元資料編碼器經組配以接收包含與該音訊解碼器之不同頻帶相關的至少兩個動態範圍控制增益之一動態範圍控制增益序列(DS),且將包含與該解碼器之不同頻帶相關的至少兩個動態範圍控制增益之該動態範圍控制增益序列(DS)及視情況該等動態範圍控制增益與該解碼器之該等頻帶的關係併入到該元資料位元串流(MBS)中。
- 如請求項1之音訊編碼器,其中該元資料編碼器經組配以接收包含不同引導裁切防止增益的至少兩個引導裁切防止增益序列(GS),且將包含該等不同之引導裁切防止增益的該至少兩個引導裁切防止增益序列(GS)併入到該元資料位元串流(MBS)中。
- 如請求項1之音訊編碼器,其中每一動態範圍控制序列(DS)與該等引導裁切防止增益序列(GS)中之一者相關,其中該元資料編碼器經組配以將該等動態範圍控制序列(DS)與該等引導裁切防止增益序列(GS)之間的關係併入到該元資料位元串流(MBS)中。
- 如請求項1之音訊編碼器,其中該元資料編碼器經組配以接收包含與不同音訊通道及/或與不同音訊物件相關的至少兩個引導裁切防止增益之一引導裁切防止增益 序列(GS),且將包含與不同音訊通道及/或與不同音訊物件相關的至少兩個引導裁切防止增益之該引導裁切防止增益序列(GS)及視情況該等引導裁切防止增益與該等音訊通道及/或該等音訊物件之關係併入到該元資料位元串流(MBS)中。
- 一種用於操作音訊編碼器之方法,該音訊編碼器用於產生包含一或多個音訊通道及/或一或多個音訊物件之一音訊位元串流,該音訊編碼器包含用於產生一元資料位元串流(MBS)之一元資料編碼器,該方法包含以下步驟:在該元資料編碼器之部分上接收至少一動態範圍控制增益序列(DS),其包含用於一音訊解碼器之一動態範圍控制級的一或多個動態範圍控制增益;在該元資料編碼器之部分上接收至少一引導裁切防止增益序列(GS),其包含用於該音訊解碼器之一引導裁切防止級的一或多個引導裁切防止增益;以及在該元資料編碼器之部分上將該等動態範圍控制增益序列(DS)中之至少一者及該等引導裁切防止增益序列(GS)中之至少一者併入到該元資料位元串流(MBS)中。
- 一種用於在於一電腦或一處理器上執行時執行如請求項8之方法的電腦程式。
- 一種音訊解碼器,用於解碼一音訊位元串流及與該音訊位元串流相關之一元資料位元串流(MBS),該等位元串流係特別是藉由如請求項1至7中一項之音訊編碼器產 生,該音訊解碼器包含:一音訊處理鏈,其係組配來接收得自該音訊位元串流之一經解碼音訊信號(DAS)且調整該音訊處理鏈之一音訊輸出信號(AOS)的特性,該音訊處理鏈包含多個調整級,該等多個調整級包括用於調整該音訊輸出信號(AOS)之一動態範圍的一動態範圍控制級及用於防止該音訊輸出信號(AOS)之裁切的一引導裁切防止級;以及一元資料解碼器,其係組配來接收該元資料位元串流(MBS)且自該元資料位元串流(MBS)提取動態範圍控制增益序列(DS)及引導裁切防止增益序列(GS),該等動態範圍控制增益序列(DS)之至少一部分被供應至該動態範圍控制級,且該等引導裁切防止增益序列(GS)之至少一部分被供應至該引導裁切防止級。
- 如請求項10之音訊解碼器,其中該元資料解碼器經組配以自該元資料位元串流(MBS)提取針對同一音訊訊框之包含不同動態範圍控制增益的至少兩個動態範圍控制增益序列(DS)。
- 如請求項10之音訊解碼器,其中該元資料解碼器經組配以自該元資料位元串流(MBS)提取包含與不同音訊通道及/或與不同音訊物件相關的至少兩個動態範圍控制增益之一動態範圍控制增益序列(DS)。
- 如請求項10之音訊解碼器,其中該元資料解碼器經組配以自該元資料位元串流(MBS)提取包含與該音訊解碼器之不同頻帶相關的至少兩個動態範圍控制增益之一動 態範圍控制增益序列(DS)。
- 如請求項10之音訊解碼器,其中該元資料解碼器經組配以自該元資料位元串流(MBS)提取包含不同之引導裁切防止增益的至少兩個引導裁切防止增益序列(GS)。
- 如請求項10之音訊解碼器,其中該元資料解碼器經組配以自該元資料位元串流(MBS)提取包含與不同音訊通道及/或與不同音訊物件相關的至少兩個引導裁切防止增益之一引導裁切防止增益序列(GS)。
- 如請求項10之音訊解碼器,該音訊解碼器進一步包含一元資料及參數控制級,該元資料及參數控制級經組配以基於自一組態提供級所接收之組態資訊(CI)將元資料及參數(DS、GS、CLA、DI、DTL、PRL、IS、OMD、ICT)提供至該等調整級中之至少一者。
- 如請求項10之音訊解碼器,其中該元資料及參數控制級經組配以在接收到多個動態範圍控制增益序列(DS)之情況下選擇將該多個動態範圍控制增益序列(DS)中之哪一者供應至該動態範圍控制級。
- 如請求項10之音訊解碼器,其中該元資料及參數控制級經組配以在接收到多個引導裁切防止增益序列(GS)之情況下選擇將該多個引導裁切防止增益序列(GS)中之哪一者供應至該引導裁切防止級。
- 如請求項10之音訊解碼器,其中在信號流之方向上的該動態範圍控制級為該音訊調整鏈之第一調整級。
- 如請求項10之音訊解碼器,其中該音訊調整鏈包含經組 配以調整該音訊輸出信號(AOS)之一通道組態的一格式轉換器級。
- 如請求項10之音訊解碼器,其中該音訊調整鏈包含經組配以正規化該音訊輸出信號(AOS)之響度的一響度正規化級。
- 如請求項10之音訊解碼器,其中該音訊調整鏈包含經組配以在一臨限值被超過之情況下限制該音訊輸出(AOS)之峰值的一峰值限制器級。
- 如請求項10之音訊解碼器,其中該音訊調整鏈包含經組配以將音訊物件混頻至該音訊輸出信號(AOS)之通道中的一物件呈現器級。
- 如請求項10之音訊解碼器,其中該音訊調整鏈包含經組配以調整該音訊輸出信號(AOS)之特性以適應用於再生該音訊輸出信號(AOS)之一換能器系統的一換能器調適級。
- 如請求項10之音訊解碼器,其中在該信號流之該方向上的該峰值限制器級為該音訊調整鏈之最後調整級。
- 一種用於操作音訊解碼器之方法,該音訊解碼器特別是如請求項10至25中一項之音訊解碼器,該音訊解碼器用於解碼一音訊位元串流及與該音訊位元串流相關之一元資料位元串流(MBS),該等位元串流係特別是藉由如請求項1至7中一項之音訊編碼器產生,該方法包含以下步驟:自該音訊位元串流導出一經解碼音訊信號(DAS); 使用具有多個調整級的一音訊處理鏈,該等多個調整級用於調整該音訊處理鏈之一音訊輸出信號(AOS)之特性,包括藉由為調整鏈之一調整級的一動態範圍控制級調整該音訊輸出信號(AOS)之一動態範圍,及藉由為該調整鏈之一調整級的一引導裁切防止級防止該音訊輸出信號(AOS)的裁切;在一元資料解碼器之部分上接收該元資料位元串流(MBS)且自該元資料位元串流(MBS)提取動態範圍控制增益序列(DS)及引導裁切防止增益序列(GS);將該等動態範圍控制增益序列(DS)之至少一部分供應至該動態範圍控制級;以及將該等引導裁切防止增益序列(GS)之至少一部分供應至該引導裁切防止級。
- 一種用於在於一電腦或一處理器上執行時執行如請求項26之方法的電腦程式。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189754 | 2013-10-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201521012A TW201521012A (zh) | 2015-06-01 |
TWI571865B true TWI571865B (zh) | 2017-02-21 |
Family
ID=49447470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103136286A TWI571865B (zh) | 2013-10-22 | 2014-10-21 | 音訊編碼器裝置、音訊解碼器裝置、及其操作方法 |
Country Status (20)
Country | Link |
---|---|
US (3) | US11170795B2 (zh) |
EP (3) | EP3522157B1 (zh) |
JP (2) | JP6588899B2 (zh) |
KR (1) | KR101882898B1 (zh) |
CN (2) | CN105814630B (zh) |
AR (2) | AR098153A1 (zh) |
AU (1) | AU2014339086B2 (zh) |
BR (1) | BR112016008933B1 (zh) |
CA (1) | CA2927664A1 (zh) |
ES (2) | ES2732304T3 (zh) |
MX (1) | MX358483B (zh) |
MY (1) | MY181977A (zh) |
PL (2) | PL3061090T3 (zh) |
PT (2) | PT3061090T (zh) |
RU (1) | RU2659490C2 (zh) |
SG (1) | SG11201603116XA (zh) |
TR (1) | TR201908748T4 (zh) |
TW (1) | TWI571865B (zh) |
WO (1) | WO2015059087A1 (zh) |
ZA (1) | ZA201603299B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN104303229B (zh) | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
TR201802631T4 (tr) | 2013-01-21 | 2018-03-21 | Dolby Laboratories Licensing Corp | Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder |
KR102071860B1 (ko) | 2013-01-21 | 2020-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
US9607624B2 (en) * | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
CN110083714B (zh) | 2013-04-05 | 2024-02-13 | 杜比实验室特许公司 | 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
CN112185401B (zh) | 2014-10-10 | 2024-07-02 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
CA3149389A1 (en) * | 2015-06-17 | 2016-12-22 | Sony Corporation | Transmitting device, transmitting method, receiving device, and receiving method |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US9934790B2 (en) * | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
FR3044814A1 (fr) * | 2016-04-21 | 2017-06-09 | Continental Automotive France | Systeme et procede de controle du volume sonore dans un systeme multimedia |
EP3479378B1 (en) * | 2016-07-04 | 2023-05-24 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals containing speech signals |
CN106504766B (zh) * | 2016-11-28 | 2019-11-26 | 湖南国科微电子股份有限公司 | 一种数字音频信号的动态范围压缩方法 |
CN111819863A (zh) | 2018-11-13 | 2020-10-23 | 杜比实验室特许公司 | 用音频信号及相关联元数据表示空间音频 |
CN109889170B (zh) * | 2019-02-25 | 2021-06-04 | 珠海格力电器股份有限公司 | 音频信号的控制方法和装置 |
CN116866816A (zh) | 2019-03-14 | 2023-10-10 | 高迪奥实验室公司 | 用于控制响度级的音频信号处理方法和装置 |
US11545166B2 (en) * | 2019-07-02 | 2023-01-03 | Dolby International Ab | Using metadata to aggregate signal processing operations |
WO2021021750A1 (en) * | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Dynamics processing across devices with differing playback capabilities |
AU2021385196A1 (en) | 2020-11-24 | 2023-06-22 | Gaudio Lab, Inc. | Method for normalizing audio signal, and device therefor |
US11837254B2 (en) | 2021-08-03 | 2023-12-05 | Zoom Video Communications, Inc. | Frontend capture with input stage, suppression module, and output stage |
WO2023014738A1 (en) * | 2021-08-03 | 2023-02-09 | Zoom Video Communications, Inc. | Frontend capture |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200921642A (en) * | 2007-02-14 | 2009-05-16 | Lg Electronics Inc | Methods and apparatuses for encoding and decoding object-based audio signals |
TW201010450A (en) * | 2008-07-17 | 2010-03-01 | Fraunhofer Ges Forschung | Apparatus and method for generating audio output signals using object based metadata |
US20110208528A1 (en) * | 2008-10-29 | 2011-08-25 | Dolby International Ab | Signal clipping protection using pre-existing audio gain metadata |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070029647A (ko) * | 2004-01-16 | 2007-03-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비트 스트림 프로세싱 방법 |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
TW200638335A (en) * | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
CN102237094B (zh) * | 2005-10-12 | 2013-02-20 | 三星电子株式会社 | 处理/发送比特流以及接收/处理比特流的方法和设备 |
CN101098201A (zh) * | 2006-06-29 | 2008-01-02 | 乐金电子(昆山)电脑有限公司 | 广播接收用移动装置的音频输出装置及其控制方法 |
JP5530720B2 (ja) * | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
EP4407610A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US8600076B2 (en) * | 2009-11-09 | 2013-12-03 | Neofidelity, Inc. | Multiband DRC system and method for controlling the same |
TWI529703B (zh) * | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN101944362B (zh) * | 2010-09-14 | 2012-05-30 | 北京大学 | 一种基于整形小波变换的音频无损压缩编码、解码方法 |
JP5821431B2 (ja) * | 2011-09-02 | 2015-11-24 | 株式会社Jvcケンウッド | 音声信号加工装置、音声信号加工方法及びプログラム |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
CN102768834B (zh) * | 2012-03-21 | 2018-06-26 | 新奥特(北京)视频技术有限公司 | 一种实现音频帧解码的方法 |
CN104303229B (zh) * | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
US9805725B2 (en) * | 2012-12-21 | 2017-10-31 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
CN116665683A (zh) * | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
US9173021B2 (en) * | 2013-03-12 | 2015-10-27 | Google Technology Holdings LLC | Method and device for adjusting an audio beam orientation based on device location |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
CN103280221B (zh) * | 2013-05-09 | 2015-07-29 | 北京大学 | 一种基于基追踪的音频无损压缩编码、解码方法及系统 |
FR3006622B1 (fr) | 2013-06-07 | 2015-07-17 | Essilor Int | Procede de fabrication d'une lentille ophtalmique |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
-
2014
- 2014-10-20 SG SG11201603116XA patent/SG11201603116XA/en unknown
- 2014-10-20 AU AU2014339086A patent/AU2014339086B2/en active Active
- 2014-10-20 CN CN201480064722.1A patent/CN105814630B/zh active Active
- 2014-10-20 PL PL14786881T patent/PL3061090T3/pl unknown
- 2014-10-20 MX MX2016004921A patent/MX358483B/es active IP Right Grant
- 2014-10-20 EP EP19160596.3A patent/EP3522157B1/en active Active
- 2014-10-20 CN CN202010267349.7A patent/CN111580772B/zh active Active
- 2014-10-20 PT PT14786881T patent/PT3061090T/pt unknown
- 2014-10-20 PT PT191605963T patent/PT3522157T/pt unknown
- 2014-10-20 WO PCT/EP2014/072431 patent/WO2015059087A1/en active Application Filing
- 2014-10-20 PL PL19160596T patent/PL3522157T3/pl unknown
- 2014-10-20 RU RU2016119525A patent/RU2659490C2/ru active
- 2014-10-20 EP EP14786881.4A patent/EP3061090B1/en active Active
- 2014-10-20 EP EP21186145.5A patent/EP3951778A1/en active Pending
- 2014-10-20 ES ES14786881T patent/ES2732304T3/es active Active
- 2014-10-20 KR KR1020167013335A patent/KR101882898B1/ko active IP Right Grant
- 2014-10-20 TR TR2019/08748T patent/TR201908748T4/tr unknown
- 2014-10-20 MY MYPI2016000688A patent/MY181977A/en unknown
- 2014-10-20 ES ES19160596T patent/ES2900065T3/es active Active
- 2014-10-20 BR BR112016008933-2A patent/BR112016008933B1/pt active IP Right Grant
- 2014-10-20 CA CA2927664A patent/CA2927664A1/en active Pending
- 2014-10-20 JP JP2016525967A patent/JP6588899B2/ja active Active
- 2014-10-21 TW TW103136286A patent/TWI571865B/zh active
- 2014-10-22 AR ARP140103968A patent/AR098153A1/es active IP Right Grant
-
2016
- 2016-04-22 US US15/136,324 patent/US11170795B2/en active Active
- 2016-05-16 ZA ZA2016/03299A patent/ZA201603299B/en unknown
-
2018
- 2018-04-12 JP JP2018077152A patent/JP6768735B2/ja active Active
-
2019
- 2019-08-09 AR ARP190102271A patent/AR115941A2/es active IP Right Grant
-
2021
- 2021-02-11 US US17/174,269 patent/US11551703B2/en active Active
-
2022
- 2022-12-29 US US18/148,360 patent/US12051432B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200921642A (en) * | 2007-02-14 | 2009-05-16 | Lg Electronics Inc | Methods and apparatuses for encoding and decoding object-based audio signals |
TW201010450A (en) * | 2008-07-17 | 2010-03-01 | Fraunhofer Ges Forschung | Apparatus and method for generating audio output signals using object based metadata |
US20110208528A1 (en) * | 2008-10-29 | 2011-08-25 | Dolby International Ab | Signal clipping protection using pre-existing audio gain metadata |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI571865B (zh) | 音訊編碼器裝置、音訊解碼器裝置、及其操作方法 | |
USRE49107E1 (en) | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control | |
US8355909B2 (en) | Hybrid permanent/reversible dynamic range control system | |
JP5719372B2 (ja) | アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム | |
WO2010039441A1 (en) | Transcoding of audio metadata | |
CA3162763A1 (en) | Decoding apparatus and method, and program | |
EP2850612A1 (en) | System for maintaining reversible dynamic range control information associated with parametric audio coders | |
EP3761672B1 (en) | Using metadata to aggregate signal processing operations | |
WO2022192217A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
CN114464199A (zh) | 用于动态范围控制的推迟响度调节 |