TWI576829B - 位元配置裝置 - Google Patents
位元配置裝置 Download PDFInfo
- Publication number
- TWI576829B TWI576829B TW105133789A TW105133789A TWI576829B TW I576829 B TWI576829 B TW I576829B TW 105133789 A TW105133789 A TW 105133789A TW 105133789 A TW105133789 A TW 105133789A TW I576829 B TWI576829 B TW I576829B
- Authority
- TW
- Taiwan
- Prior art keywords
- bits
- bit
- unit
- sub
- band
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims description 13
- 230000000670 limiting effect Effects 0.000 claims description 8
- 230000036961 partial effect Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 99
- 230000003595 spectral effect Effects 0.000 description 59
- 238000000034 method Methods 0.000 description 43
- 230000005236 sound signal Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 32
- 238000004891 communication Methods 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 18
- 230000001052 transient effect Effects 0.000 description 15
- 230000000873 masking effect Effects 0.000 description 13
- 238000013139 quantization Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000007493 shaping process Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
本發明是有關於一種音訊編碼及解碼的裝置、元件與所製作的物品(article),且特別是有關於一種基於子頻帶(sub-bands)而高效率地配置位元至感知重要頻率區域(perceptively important frequency area)的方法及裝置、音訊編碼方法及裝置、音訊解碼方法及裝置、記錄媒體、以及使用上述的多媒體元件(multimedia device)。 [相關申請案的交叉參考] 本申請案主張在美國專利局所申請的美國臨時申請案號為61/485,741,申請日為2011年5月13日的優先權;以及美國臨時申請案號為61/495,014,申請日為2011年6月9日的優先權,藉由參照而將上述揭露的全部內容編入至本申請案中。
當音頻訊號被編碼或解碼時,需要在有限的位元數目範圍之內、有效地使用有限的位元數目,去復原具有最佳聲音品質的音訊訊號。特別來說,在低位元率(low bit rate)中,編碼與解碼音訊訊號的技術是需要平均地配置位元至感知重要頻譜成分(perceptively important spectral components),並非集中位元至特定的頻率區域。
特別來說,在低位元率中,當編碼與位元配置至各個頻帶(如子頻帶)一同被執行時,可能會因為一頻率成分而產生頻譜洞(spectral hole)。因為位元數目的不足夠,此頻譜洞是不被編碼的,因此造成聲音品質降低的結果。
有鑑於此,本發明提出一種基於子頻帶而高效率地配置位元至感知重要頻率區的裝置與方法、音訊編碼方法及裝置、音訊解碼方法及裝置、記錄媒體、以及使用以上的多媒體元件。
本發明提出一種基於子頻帶,具有低複雜度而有效地配置位元至感知重要頻率區的裝置與方法、音訊編碼方法及裝置、音訊解碼方法及裝置、記錄媒體、以及使用以上的多媒體元件。
根據本發明的一或多個實施例的一方面,提供一種位元配置方法,包括:在給定框的許可位元數目的範圍內,基於各個頻帶而決定十進位小數點單位的配置位元數目(allocated number of bits),以致於存在於預設頻帶中的訊雜比(Signal-to-Noise Ratio)被最大化;並且,基於各個頻帶而調整所述配置位元數目。
根據本發明的一或多個實施例的另一方面,提供一種位元配置裝置,包括:轉換單元,把時域裡的音訊訊號轉換成頻域裡的音訊頻譜;以及位元配置單元,在所述音訊頻譜中、基於被包含在給定框中的多個頻帶,而藉由利用遮蔽臨界值(masking threshold)來估測十進位小數點單位的許可位元數目,且藉由利用頻譜能量來估測十進位小數點單位的配置位元數目,且調整所述配置位元數目不超過所述許可位元數目(allowable number of bits)。
根據本發明的一或多個實施例的另一方面,提供一種音訊編碼裝置,包括:轉換單元,把時域裡的音訊訊號轉換成頻域裡的音訊頻譜;位元配置單元,在所述音訊頻譜的給定框中的許可位元數目的範圍內,基於每個頻帶決定十進位小數點單位的配置位元數目,以致於存在於預設頻帶的頻譜的訊雜比被最大化,且對基於每個頻帶決定的配置位元數目進行調整;及編碼單元,藉由利用基於每個頻帶與頻譜能量而調整過的位元數目,來編碼所述音訊頻譜。
根據本發明的一或多個實施例的另一方面,提供一種音訊編碼裝置,包括:轉換單元,把時域裡的音訊訊號轉換成頻域裡的音訊頻譜;位元配置單元,在所述音訊頻譜中、基於被包含在給定框中的多個頻帶,而藉由利用遮蔽臨界值來估測十進位小數點單位的許可位元數目,且藉由利用頻譜能量來估測十進位小數點單位的配置位元數目,且調整所述配置位元數目不超過所述許可位元數目;編碼器,用於編碼所述音訊頻譜,藉由利用基於每個頻帶與頻譜能量調整過的所述位元數目,來編碼所述音訊頻譜。
根據本發明的一或多個實施例的另一方面,提供一種音訊解碼裝置,包括:位元配置單元,在給定框的許可位元數目的範圍內,基於各個頻帶決定十進位小數點單位的配置位元數目,以致於存在於各個頻帶的頻譜的訊雜比被最大化,及基於各個頻帶而調整所決定的所述配置位元數目;解碼單元,藉由利用基於每個頻帶與頻譜能量而調整過的位元數目,來對於被包含在位元流的音訊頻譜進行解碼;以及反向轉換單元,把解碼的所述音訊頻譜轉換成時域裡的音訊訊號。
根據本發明的一或多個實施例的另一方面,提供一種音訊解碼裝置,包括:位元配置單元,利用基於被包含在給定框中的多個頻帶的遮蔽臨界值來估測十進位小數點單位的許可位元數目,且藉由利用頻譜能量來估測十進位小數點單位的配置位元數目,且調整配置位元數目不超過許可位元數目;解碼單元,藉由利用基於每個頻帶與頻譜能量而調整過的位元數目,來對於被包含在位元流的音訊頻譜進行解碼;反向轉換單元,把解碼的所述音訊頻譜轉換成時域裡的音訊訊號。
本發明概念可允許多種更動或潤飾與形式上的改變,且具體的實施例將被說明於圖示中、且詳細的描述於說明書中。然而,需了解的是,具體的實施例並非用以限定本發明概念到具體的揭露形式,在不脫離本發明概念的精神與技術範圍內,可包含每種潤飾、均等物或取代。在接下來的描述中,不詳細描述眾所周知的功能或結構,因為不需要的細節將混淆本發明。
即使如“第一”與“第二”的用語,可被用來描述多種元件,這些元件不被用語所限制。此類用語可用來分類某些元件與另一其他元件。
在本申請中所使用的術語只用來描述具體的實施例,並沒有任何限制目前的本發明概念的意圖。雖然在同時考慮到本發明概念的功能時,使用於本發明概念的用語的選擇是盡可能為目前廣泛所使用的一般用語,但這些用語可根據所屬技術領域中具有通常知識者、司法判例、或新技術的出現而改變。此外,在具體的例子中,可使用由申請人有意選擇的用語。在此例子中,用語的意義將被揭露在本發明的相對應的描述中。據此,本發明概念所使用的用語不應藉由用語的簡單名稱而定義,而是藉由用語的意義與本發明概念的全部內容而定義。
在本文中,單數的表示方式包含複數的意思,除非兩者清楚地彼此不同。在本申請中,需要了解,如“包含”、“具有”的用語是用來指出:實現特徵、數量、步驟、操作、要素(element)、部分(part)或上述組合的存在,並不預先排除存在的可能性,或者,並不預先排除一或多個其他功能、數量、步驟、操作、要素、部分或上述組合的附加。
以下,將參照所附圖式而更充分地描述本發明概念,在所述圖式中繪示實施例。圖示中同樣的參考標號代表同樣的元件,因此重複的描述將被省略。
如此處所使用的,當要素的清單(list)在前時,如“至少一個”的表示方式用以潤飾要素的整個清單,且並非修飾清單的個別要素。
圖1是依照本發明一實施例所繪示的音訊編碼裝置100的方塊圖。
圖1的音訊編碼裝置100可包括:轉換單元130、位元配置單元150、編碼單元170,及多工單元190。音訊編碼裝置100的零件(component)可被整合在至少一個模組、且由至少一個處理器(例如:中央處理單元(CPU))來執行。在此,音訊可代表音訊訊號、聲音訊號,或是藉由合成上述音訊訊號與聲音訊號而得的訊號,但為了描述的方便性,在接下來的敘述裡,音訊通常代表一音訊訊號。
請參照圖1,藉由把時域(time domain)裡的音頻訊號轉換成頻域(frequency domain)裡的音訊訊號,轉換單元130可產生音訊頻譜。時域到頻域的轉換可利用多種眾所周知的方法來實施,像是離散餘弦轉換(Discrete Cosine Transform,DCT)。
位元配置單元150可決定遮蔽臨界值,藉由利用頻譜能量或有關於音訊頻譜的心理聲學模型(psych-acoustic model)來得到該遮蔽臨界值,且利用頻譜能量、基於各個子頻帶(sub-band)來配置位元數目。在此,子頻帶是音訊頻譜的群組樣本的單位,且子頻帶可藉由反射臨界值頻帶(threshold band)而具備相同(uniform)或非相同(non-uniform)的長度。當子頻帶有非相同的長度時,子頻帶可被決定,以致於被包含在各個子頻帶中從起始樣本到最終樣本的樣本數目於每一個框(frame)逐漸增加。在此,子頻帶的數目、或被包含在每個子框(sub-frame)中的樣本數目可事先決定。另一方面,在框被分割成預設數目的、具有相同長度的子頻帶之後,此相同的長度可根據一頻譜係數(spectral coefficient)的分布而被調整。頻譜係數的分布可經由以下方式來決定:使用頻譜平坦度量測、最大值與最小值的差異、或最大值的微分值。
根據本發明實施例,位元配置單元150可藉由基於各個子頻帶而得到的範數值(Norm value)來估測許可位元數目(allowable number of bits),如平均頻譜能量。位元配置單元150也基於平均頻譜能量來配置位元、和限制所配置位元數目不超過許可位元數目。
根據本發明實施例,位元配置單元150可藉由基於各個子頻帶的心理聲學模型來估測許可位元數目,且基於平均頻譜能量來配置位元,以及限制所配置位元數目不超過許可位元數目。
基於各個子頻帶最終決定的配置位元數目,編碼單元170藉由量化與無失真編碼音訊頻譜,可產生關於編碼頻譜的資訊。
多工處理單元190藉由對位元配置單元150所提供的編碼範數值、與編碼單元170所提供的關於編碼頻譜的資料進行多工處理,而產生位元流(bitstream)。
音訊編碼裝置100可產生雜訊位準(noise level)給一隨意(optional)的子頻帶、且提供雜訊位準至音訊解碼裝置 (圖7的700、圖12的1200、圖13的1300)。
圖2是依照本發明一實施例所繪示的位元配置單元200的方塊圖,對應於圖1的音訊編碼裝置100裡的位元配置單元150。
圖2的位元配置單元200可包含:範數估測器210、範數編碼器230、位元估測器與配置器250。位元配置單元200的零件可被整合在至少一個模組中、且由至少一個處理器來執行。
請參照圖2,範數估測器210可取得:對應到基於每個子頻帶的平均頻譜能量的範數值。舉例來說,可由應用在ITU-T G.719中的式(1)來計算出範數值,但非用以限定本發明。
(1)
在式(1)中,當P個子頻帶或次區段(sub-sectors)存在於一框時,N(p)表示第pth個子頻帶或次區段的範數值,L
p表示第pth個子頻帶或子區段的長度,例如:樣本數目或頻譜係數,s
p與e
p分別表示第pth個子頻帶的起始樣本與最終樣本,且y(k)表示樣本尺寸或頻譜係數(如:能量)。
基於各個子頻帶而取得的範數值,可被提供至編碼單元(圖1的170)。
範數編碼器230可量化與無失真編碼所述範數值,所述範數值是基於每個子頻帶而取得。基於各個子頻帶而量化的範數值、或藉由解量化(dequantizing)該已量化的範數值而得到的範數值,可被提供至位元估測器與配置器250。基於各個子頻帶量化與無失真編碼的範數值,可被提供至多工單元(圖1 的190)。
位元估測器與配置器250藉由使用所述範數值,而可估測與配置所需的位元數目。較佳地,可使用所述解量化範數值,以使得編碼部與解碼部可以使用相同的位元估測與配置過程。在此例中,可使用考慮遮蔽效應而調整的範數值。舉例來說,此範數值可藉由應用於ITU-T G.719中的心理聲學權重來調整,如式(2)所示,但非用以限定本發明。
(2)
在式(2)中,
表示第pth個子頻帶的量化範數值的索引。
表示第pth個子頻帶的調整範數值的索引,且
表示用於範數值調整的偏移頻譜(offset spectrum)。
位元配置器與估測器250可使用基於各個子頻帶的範數值來計算遮蔽臨界值,以及透過使用遮蔽臨界值來估測感知的所需的位元數目。為了做到這一點,基於各個子頻帶而取得的範數值可同樣地表示成:分貝單位(dB unit)的頻譜能量,如式(3)所示。
(3)
作為藉由使用頻譜能量來取得遮蔽臨界值的方法,可使用多種眾所周知的方法。也就是說,遮蔽臨界值是一對應於臨界可視失真(Just Noticeable Distortion,JND)的值。且當量化雜訊少於遮蔽臨界值時,感知的雜訊便不被察覺。因此,可利用遮蔽臨界值計算出:為了不察覺感知雜訊的所需的最小位元數目。舉例來說,可藉由基於各個子頻帶的、範數值與遮蔽臨界值的比例,來計算出信號遮罩比(Signal-to-Mask Ratio ,SMR)。藉由使用關於所計算出的SMR的6.025 dB ≒ 1 bit的關係,而可估測出滿足遮蔽臨界值的位元數目。即使估測的位元數目是為了不察覺感知雜訊的所需的最小位元數目,由於就壓縮而論不需要去使用比估測位元數目還多的位元數目,所以估測的位元數目可視為:基於各個子頻帶而許可的最大位元數目(以下簡稱,許可位元數目)。每個子頻帶的許可位元數目可用十進位小數點單位(decimal point unit)來表示。
位元估測器與配置器250可藉由使用基於各個子頻帶的範數值,來執行十進位小數點單位的位元配置。在此例中,從具有大於其他子頻帶的較大範數值的子頻帶開始、依序地配置位元,且藉由根據各個子頻帶的感知重要性來施加權重,可調整成較多的位元被配置至感知重要性子頻帶(perceptually important sub-band),此各個子頻帶的感知重要性是相關於基於各個子頻帶的範數值。感知重要性可透過:舉例來說,在ITU-T G.719中的心理聲學施加權重來決定。
位元估測器與配置器250可從具有大於其他子頻帶的較大範數值的子頻帶開始、依序地配置位元至樣本。換句話說,首先,對於具有最大範數值的子頻帶來配置每樣本的位元,且藉由減少子頻帶的範數值來改變有最大範數值的子頻帶的優先順序,其中更是藉由預設單元來減少子頻帶的範數值,所以,位元可被配置到另一個子頻帶。這個過程被重複地執行,直到在給定框中許可的位元的全部數目B被明確地配置。
對於各個子頻帶,藉由限制配置位元數目不超過估測位元數目(如:許可位元數目),位元估測器與配置器250可最終地決定配置位元數目。對於所有的子頻帶,配置位元數目會與估測位元數目進行比較,且如果配置位元數目大於估測位元數目,配置位元數目會被限制至估測位元數目。如果在給定框中的全部子頻帶的配置位元數目(其是藉由位元數目限制而得到的結果)少於在給定框中的許可的位元的全部數目B,對應於上述差值的位元數目可被均勻地分布至所有子頻帶、或根據感知重要性而被不均勻地分布。
由於配置至各個子頻帶的位元數目可以在十進位小數點單位被決定、與被限制到許可位元數目,所以可有效地分布給定框的位元的全部數目。
根據一實施例,估測與配置各個子頻帶所需的位元數目的細節方法如下。根據此方法,因為配置於各個子頻帶的位元數目可被立刻決定、而不用多數的重複次數,所以複雜度可被降低。
舉例來說,可藉由應用如式(4)所表示的拉格朗奇函數(Lagrange’s function),來得到最佳化量化失真與配置至各個子頻帶的位元數目的解。
(4)
在式(4)中,L表示拉格朗奇函數,D表示量化失真,B表示給定框中的許可的位元的全部數目,N
b表示第b-th 的子頻帶的樣本數目,L
b表示配置至第b-th 的子頻帶的位元數目。也就是說,N
bL
b表示:配置至第bth個子頻帶的位元數目。Λ表示當作最佳化係數的拉格朗奇乘數。
藉由式(4),當考慮到量化失真的同時可決定L
b,此L
b是用來對配置至被包括在給定框的子頻帶的位元數目與給定框的許可位元數目之間的差值進行最小化。
量化失真D可以由式(5)來定義。
(5)
在式(5)中,
表示輸入頻譜,
表示解碼頻譜。也就是說,量化失真D可被定義成平均平方誤差(Mean Square Error,MSE),此平均平方誤差是有關於在任意的框內的輸入頻譜
與解碼頻譜
。
式(5)的分母是由給定輸入頻譜而決定的常數,且因為式(5)的分母不影響最佳化,所以式(6)可藉由式(4)及式(5)來簡化。
(6)
範數值
可由式(7)來定義,且範數值
是相關於輸入頻譜
的第bth 個子頻帶的平均頻譜能量,藉由對數尺度(log scale)而量化的範數值
可藉由式(8)來定義,且解量化範數值
可藉由式(9)來定義。
(7)
(8)
(9)
在式(7)中,s
b與e
b分別表示:第bth個子頻帶的起始樣本與最終樣本。
如式(10)中,藉由輸入頻譜
除以解量化範數值
,來產生標準化的頻譜y
i。如式(11)所示,可藉由把復原的標準化頻譜
(restored normalized spectrum)乘上解量化範數值
,來產生解碼頻譜
。
(10)
(11)
藉由使用式(9)至式(11),可經由式(12)整理量化失真項。
(12)
通常來說,從量化失真與配置位元數目之間的關係來看,定義每當一樣本增加1位元時,訊雜比(SNR)也增加6.02分貝。藉此,標準化的頻譜的量化失真可由式(13)來定義。
(13)
在真實音訊編碼的案例中,可在沒有修改1 位元/樣本 ≒ 6.025 分貝的關係的情況下,使用分貝尺度值C來定義式(14),其中分貝尺度值C會根據訊號特性來變化,
(14)
在式(14)中,當C為2,則1位元/樣本對應至6.02 分貝,且當C為3,則1位元/樣本對應至9.03分貝。
這樣一來,式(6)可藉由式(12)至式(14)推導,而表示成式(15)。
(15)
為了從式(15)得到最佳的L
b與λ,對於L
b與λ執行偏微分,如式(16)。
(16)
當式(16)整理後,L
b可由式(17)來表示。
(17)
透過式(17),各個子頻帶的每一個樣本的配置位元數目L
b可被估測在給定框中的許可的位元的全部數目B的範圍內,其中各個子頻帶的每一個樣本的配置位元數L
b可最大化輸入頻譜的訊雜比(SNR)。
由位元估測器與配置器250決定的、基於各個子頻帶的配置位元數目,可被提供至編碼單元(圖1的170)。
圖3是依照本發明另一實施例所繪示的位元配置單元300的方塊圖,對應於圖1的音訊編碼裝置100裡的位元配置單元150。
圖3的位元配置單元300可包括:心理聲學模型310(psycho-acoustic model)、位元估測器與配置器330、尺度因子估測器350(scale factor estimator)、尺度因子編碼器 370(scale factor encoder)。位元配置單元300的零件可以被整合在至少一個模組、且由至少一個處理器來執行。
請參照圖3,藉由從轉換單元(圖1的130)所接收的音訊頻譜,心理聲學模型310可對於各個子頻帶取得遮蔽臨界值。
藉由使用基於各個子頻帶的遮蔽臨界值,位元估測器與配置器330 可估測感知所需的位元數目。也就是說,基於各個子頻帶可計算出SMR,且藉由使用相關於所計算的SMR的6.025 dB ≒ 1 bit的關係,可估測出滿足所述遮蔽臨界值的位元數目。即使估測的位元數目是為了不察覺感知雜訊的所需的最小位元數目,由於就壓縮而論不需要去使用比估測位元數目還多的位元數目,所以估測的位元數目可視為:基於各個子頻帶而許可的最大位元數目(以下簡稱,許可位元數目)。各個子頻帶的許可位元數目可用十進位小數點單位來表示。
位元估測器與配置器330可藉由使用基於各個子頻帶的頻譜能量,來執行十進位小數點單位的位元配置。在本例中,舉例來說,利用用式(7)至式(20)的位元配置方法可被使用在此。
位元估測器與配置器330對於全部的子頻帶,比較了:配置位元數目與估測位元數目。如果配置位元數目大於估測位元數目,則配置位元數目被限制到估測位元數目之內。如果在給定框中的全部子頻帶的配置位元數目(其是藉由位元數目限制而得到的結果)少於在給定框中的許可的位元的全部數目B,對應於上述差值的位元數目可被均勻地分布至所有子頻帶、或根據感知重要性而被不均勻地分布。
藉由使用基於各個子頻帶而最後地決定的配置位元數目,尺度因子估測器350可估測尺度因子。基於各個子頻帶而估測的尺度因子可被提供至編碼單元(圖1的170)。
尺度因子編碼器370可量化與無失真編碼基於各個子頻帶而估測的尺度因子。基於各個子頻帶而已編碼的尺度因子可被提供至多工單元(圖1的190)。
圖4是依照本發明另一實施例所繪示的位元配置單元400的方塊圖,對應於圖1的音訊編碼裝置100裡的位元配置單元150。
圖4的位元配置單元400可包括:範數估測器410、位元估測器與配置器430、尺度因子估測器450、與尺度因子編碼器 470。位元配置單元400的零件可以被整合在至少一個模組、且由至少一個處理器來執行。
請參照圖4,範數估測器410可取得:對應到基於每個子頻帶的平均頻譜能量的範數值。
位元估測器與配置器430可藉由使用基於各個子頻帶的頻譜能量而取得遮蔽臨界值,且藉由使用遮蔽臨界值來估測感知需要的位元數目,如:許可位元數目。
藉由使用基於各個子頻帶的頻譜能量,位元估測器與配置器430可執行十進位小數點單位的位元配置。在本案例中,舉例來說,利用式(7)至式(20)的位元配置方法可被使用在此。
位元估測器與配置器430對於全部的子頻帶,比較了:配置位元數目與估測位元數目。如果配置位元數目大於估測位元數目,則配置位元數目被限制到估測位元數目。如果在給定框中的全部子頻帶的配置位元數目(其是藉由位元數目限制而得到的結果)少於在給定框中的許可的位元的全部數目B,對應於上述差值的位元數目可被均勻地分布至所有子頻帶、或根據感知重要性而被不均勻地分布。
藉由使用基於各個子頻帶而最後地決定的配置位元數目,尺度因子估測器450可估測尺度因子。基於各個子頻帶而估測的尺度因子可被提供至編碼單元(圖1的170)。
尺度因子編碼器470可量化與無損失真編碼基於各個子頻帶而估測的尺度因子。基於各個子頻帶而已編碼的尺度因子可被提供至多工單元(圖1的190)。
圖5是依照本發明一實施例所繪示的編碼單元500的方塊圖,對應於圖1的音訊編碼裝置100裡的編碼單元170。
圖5的編碼單元500可包括:頻譜標準化單元510與頻譜編碼器530。編碼單元500的零件可以被整合在至少一個模組組成、且由至少一個處理器來執行。
請參照圖 5,藉由使用位元配置單元(圖1的150)所提供的範數值,頻譜標準化單元510可對頻譜進行標準化。
頻譜編碼器530可藉由使用各個子頻帶的配置位元數目來量化該標準化的頻譜,且無失真編碼所述量化結果。舉例來說,階乘脈衝編碼(factorial pulse coding)可被用於頻譜編碼,但非用以限定本發明。根據階乘脈衝編碼,如下的資訊,像是脈衝位置、脈衝量、與脈衝記號可以被表示為階乘格式(factorial form),該階乘格式在配置位元數目的範圍之內。
關於由頻譜編碼器530所編碼的頻譜的資訊,可被提供至多工單元(圖1的190)。
圖6是依照本發明另一實施例所繪示的音訊編碼裝置600的方塊圖。
圖6的音訊編碼裝置600包括:暫態偵測單元610(transient detecting unit)、轉換單元630、位元配置單元650、編碼單元670,與多工單元690。音訊編碼裝置600的零件可以被整合在至少一個模組、且由至少一個處理器來執行。當比較圖6的音訊編碼裝置600與圖 1的音訊編碼裝置100,圖6的音訊編碼裝置600 更包括暫態偵測單元610的差異,且在此省略一般零件的詳細描述。
請參照圖 6,藉由分析音訊訊號,暫態偵測單元610可偵測:指出暫態特性的區間。多種眾所周知的方法可以被使用於暫態區間(transient interval)的偵測。從暫態偵測單元610所提供的暫態訊號資訊可被包括在通過多工單元690的位元流中。
根據暫態區間偵測結果,轉換單元630可決定用於轉換的視窗尺寸,且基於所決定的視窗尺寸而執行時域到頻域的轉換。舉例來說,短視窗可被用至子頻帶,從此子頻帶偵測到暫態區間。長視窗可被用至一子頻帶,從此子頻帶未偵測到暫態區間。
位元配置單元650可分別地被圖2、圖3與圖4的位元配置單元200、300與400的其中之一所實施。
編碼單元 670可根據暫態區間偵測結果,來決定用於編碼的視窗尺寸。
音訊編碼裝置600 可對於一隨意的子頻帶產生一雜訊位準,且提供此雜訊位準至音訊解碼裝置。(圖7的700、圖12的1200、圖13的1300)。
圖7是依照本發明一實施例所繪示的音訊解碼裝置700的方塊圖。
圖7的音訊解碼裝置700可包括:解多工單元710、位元配置單元730、解碼單元750、與反向轉換單元770。音訊解碼裝置的零件可以被整合到在至少一個模組、且由至少一個處理器來執行。
請參照圖7,解多工單元710可對一位元流進行解多工,來擷取量化與無失真編碼的範數值、與關於編碼頻譜的資訊。
位元配置單元730可從基於各個子頻帶的量化與無失真編碼的範數值、來取得解量化的範數值,且藉由使用此解量化的範數值來決定配置位元數目。位元配置單元730本質上的操作、與音訊編碼裝置100或600的位元配置單元150或650相同。當藉由音訊編碼裝置100或600中的心理聲學施加權重來調整所述範數值時,音訊解碼裝置700使用相同方式來調整所述解量化的範數值。
藉由使用關於從解多工單元710所提供的編碼頻譜的資訊,解碼裝置750可無失真解碼與解量化此編碼頻譜。舉例來說,脈衝解碼可被用於頻譜解碼。
藉由將解碼頻譜轉換到時域,反向轉換單元770可產生復原的音訊訊號。
圖8是依照本發明一實施例所繪示的位元配置單元800的方塊圖,位於圖7的音訊解碼裝置700中。
圖8的位元配置單元800可包括:範數解碼器810、與位元估測器與配置器830。位元配置單元800的零件可以被整合在至少一個模組、且由至少一個處理器來執行。
請參照圖8,範數解碼器810可從解多工單元(圖7的710)所提供的量化與無失真編碼的範數值,來取得解量化範數值。
位元估測器與配置器830可藉由使用解量化範數值,來決定配置位元數目。仔細來說,位元估測器與配置器830可藉由使用基於各個子頻帶的頻譜能量(如範數值)來取得遮蔽臨界值,並且藉由使用此遮蔽臨界值來估測感知所需的位元數目(如許可位元數目)。
藉由使用基於各個子頻帶的頻譜能量(如:範數值),位元估測器與配置器830可執行十進位小數點單位的位元配置。在此例子中,舉例來說,利用式(7)至式(20)的位元配置方法可被使用於此。
位元估測器與配置器830對於全部的子頻帶,比較了:配置位元數目與估測位元數目。如果配置位元數目大於估測位元數目,則配置位元數目會被限制到估測位元數目。如果在給定框中的全部子頻帶的配置位元數目(其是藉由位元數目限制而得到的結果)少於在給定框中的許可的位元的全部數目B,對應於上述差值的位元數目可被均勻地分布至所有子頻帶、或根據感知重要性而被不均勻地分布。
圖9是依照本發明一實施例的解碼裝置900的方塊圖,對應於圖7的音訊解碼裝置700裡的解碼單元700。
圖9的解碼裝置900可包括:頻譜解碼器910與封包整形單元930(envelope shaping unit)。解碼裝置900的零件組成可以被整合在至少一個模組、且由至少一個處理器來執行。
請參照圖9,藉著使用關於解多工單元(圖7的710)所提供的編碼頻譜、與位元配置單元(圖7的730)所提供的配置位元數目的資訊,頻譜解碼器910可無失真解碼與解量化此編碼頻譜。從頻譜解碼器910而來的解碼頻譜是標準化頻譜。
藉由在頻譜解碼器910所提供的標準化頻譜上執行封包整形,及藉由使用位元配置單元(圖7的730)所提供的解量化範數值,封包整形單元930可在標準化之前復原頻譜。
圖10是依照本發明一實施例所繪示的解碼單元1000的方塊圖,對應於圖7的音訊解碼裝置700裡的解碼單元750。
圖10的解碼單元1000可包括:頻譜解碼器1010、封包整形單元1030、與頻譜填充單元1050。解碼裝置1000的零件組成可以被整合在至少一個模組、且由至少一個處理器來執行。
請參照圖10,藉由使用關於解多工單元(圖7的710)所提供的編碼頻譜、與位元配置單元(圖7的730) 所提供的配置位元數目的資訊,位元配置單元頻譜解碼器1010可無失真解碼與解量化此編碼頻譜。從頻譜解碼器1010而來的解碼頻譜是標準化頻譜。
藉由在頻譜解碼器1010所提供的標準化頻譜上執行封包整形,及藉由使用位元配置單元(圖7的730)所提供的解量化範數值,封包整形單元1030可在標準化之前復原頻譜。
當包含解量化至0的部份的子頻帶存在於封包整形單元1030所提供的頻譜中時,頻譜填充單元1050可填充雜訊成分到子頻帶中的解量化至0的部份。根據一實施例,雜訊成分可隨機的產生,或藉由複製解量化至非0值的子頻帶的頻譜來產生。上述解量化至非0值的子頻帶的頻譜,其鄰近於:包含解量化至0的部份的子頻帶、或解量化為非0值的子頻帶的頻譜。根據另一實施例,藉由產生雜訊成分至包含解量化至0的部份的子頻帶,及藉由使用雜訊成分的能量對於位元配置單元(圖7的730)所提供的解量化範數值(如:頻譜能量)的比例值,而可調整雜訊成分的能量。根據另一實施例,可產生用於包含解量化至0的部份的子頻帶的雜訊成分,且雜訊成分的平均能量可被調整至1。
圖11是依照本發明另一實施例所繪示的解碼單元1100的方塊圖,對應於圖7的音訊解碼裝置700裡的解碼單元750。
圖11的解碼單元1100可包括:頻譜解碼器1110、頻譜填充單元1130,與封包整形單元1150。解碼單元1100的零件可以被整合在至少一個模組、且由至少一個處理器來執行。當比較圖11的解碼裝置 1100與圖10的解碼裝置1000,存在頻譜填充單元1130與封包整形單元1150於排列(arrangement)上的差異,且在此省略一般零件的詳細描述。
請參照圖 11,當包含解量化至0的部份的子頻帶存在於頻譜解碼器1110所提供的標準化頻譜時,頻譜填充單元1130可在子頻帶中的解量化至0的部份填充雜訊成分。在此例子中,多種雜訊填充方法可被使用於圖10的頻譜填充單元1050。較佳的是,對於包含解量化至0的部份的子頻帶,可產生雜訊成分,且雜訊成分的平均能量可被調整至1。
在將包含子頻帶的頻譜進行標準化之前,封包整形單元1150可復原頻譜;在此子頻帶中,藉由使用從位元配置單元(圖 7 的730)所提供的解量化範數值來填充雜訊成分。
圖12是依照本發明另一實施例所繪示的音訊解碼裝置1200的方塊圖。
圖12的音訊解碼裝置1200可包括:解多工單元1210、尺度因子解碼器1230、頻譜解碼器1250,與反向轉換單元1270。音訊解碼裝置1200的零件可以被整合在至少一個模組、且由至少一個處理器來執行。
請參照圖12,解多工單元1210可對位元流進行解多工,而擷取出量化的與無失真編碼的尺度因子、及關於編碼頻譜的資訊。
尺度因子解碼器1230可基於各個頻帶,而無失真解碼與解量化所述已量化的且無失真編碼的尺度因子。
藉由使用關於編碼頻譜與解多工單元1210所提供的解量化尺度因子的相關資訊,頻譜解碼器1250可無失真解碼與解量化此編碼頻譜。頻譜解碼器1250可包括:與圖10的解碼單元1000為相同的零件。
藉由轉換經頻譜解碼器1250所解碼的頻譜到時域,反向轉換單元1270可產生一復原的音訊訊號。
圖13是依照本發明另一實施例所繪示的音訊解碼裝置1300的方塊圖。
圖13的音訊解碼裝置1300 可包括:解多工單元1310、位元配置單元1330、解碼單元1350、與反向轉換單元1370。音訊解碼裝置1300的零件可以被整合在至少一個模組、且由至少一個處理器來執行。
當比較圖13的音訊解碼裝置 1300與圖7的音訊解碼裝置700,因有暫態訊號資訊提供至解碼單元1350與反向轉換單元1370的差異,而在此省略一般零件的詳細描述。
請參照圖13,藉由使用關於解多工單元1310所提供的編碼頻譜的相關資訊,解碼單元1350可解碼一頻譜。在此例子中,視窗尺寸可根據暫態訊號資訊來變更。
反向轉換單元1370可藉由轉換編碼頻譜至時域,來產生復原的音訊訊號。在此例子中,視窗尺寸可根據暫態訊號資訊來變更。
圖14是依照本發明另一實施例所繪示的位元配置方法的流程圖。
請參照圖14,在操作1410中,取得各個子頻帶的頻譜能量。頻譜能量可為範數值。
在操作1420中,藉由使用基於各個子頻帶的頻譜能量,來取得遮蔽臨界值。
在操作1430中,藉由使用基於各個子頻帶的遮蔽臨界值,來估測十進位小數點單位的許可位元數目。
在操作1440中,在十進位小數點單位中,基於各個子頻帶的頻譜能量來配置位元。
在操作1450中,基於各個子頻帶,將許可位元數目與配置位元數目進行比較。
在操作1460中,如果配置位元數目大於給定子頻帶的許可位元數目,即操作1450的比較結果,則配置位元數目被限制到許可位元數目。
在操作1470中,如果配置位元數目小於或等於給定子頻帶的許可位元數目,即操作1450的比較結果,則配置位元數目本身即被使用,或藉由使用限制在操作1460中的許可位元數目、對於各個子頻帶決定最後的配置位元數目。
雖然未繪示,如果在操作1470中所決定的、在給定框中的全部子頻帶的配置位元數目的總合,小於或大於在給定框中的許可的位元的全部數目,則對應於此差異的位元數目可被均勻地分布至所有子頻帶、或根據感知重要性而被不均勻地分布。
圖15是依照本發明另一實施例所繪示的位元配置方法的流程圖。請參照圖15,在操作1500中,取得各個子頻帶的解量化範數值。
在操作1510中,藉由使用基於各個子頻帶的解量化範數值,而取得遮蔽臨界值。
在操作1520中,藉由使用基於各個子頻帶的所述遮蔽臨界值,而取得SMR。
在操作1530中,藉由使用基於各個子頻帶的SMR,來估測十進位小數點單位的許可位元數目。
在操作1540中,基於各個頻帶的頻譜能量(或解量化範數值),而使位元以十進位小數點單位來配置。
在操作1550中,基於各個子頻帶,將許可位元數目與配置位元數目進行比較。
在操作1560中,如果配置位元數目大於給定子頻帶的許可位元數目,即操作1550的比較結果,則配置位元數目被限制到許可位元數目。
在操作1570,如果配置位元數目小於或等於給定子頻帶的許可位元數目,即操作1550的比較結果,則配置位元數目本身即被使用,或藉由使用限制在操作1560中的許可位元數目、對各個子頻帶來決定最後的配置位元數目。
雖然未繪示,如果在操作1570中所決定的、在給定框中的全部子頻帶的配置位元數目的總合,小於或大於在給定框中的許可的位元的全部數目,則對應於此差異的位元數目可被均勻地分布至所有子頻帶、或根據感知重要性而被不均勻地分布。
圖16是依照本發明另一實施例所繪示的位元配置方法的流程圖。
請參照圖16,在操作1610中,執行初始化。作為初始化的例子,當藉由使用式(20)估測出用於各個子頻帶的配置位元數目,可經由計算對於所有子頻帶的常數值
,來減少整個複雜度。
在操作1620中,利用式(17)以十進位小數點單元來估測出:用於各個子頻帶的配置位元數目。藉由每一樣本的配置位元數L
b與每個子頻帶的樣本數目的相乘,而可取得用於各個子頻帶的配置位元數目。當由式(17)計算出各個子頻帶的每一樣本的配置位元數L
b時,L
b可能有一個小於0的值。在本例中,0被配置至有一個小於0的值的L
b,如式(18)。
(18)
作為結果,對於被包含於給定框中所有子頻帶估測的配置位元數目的總合(sum),其可大於給定框中的許可位元數目B。
在操作1630中,對於被包含於給定框中所有子頻帶估測的配置位元數目的總合,其被拿來與給定框中的許可位元數目B作比較。
在操作1640中,使用式(19)來重分配用於各個子頻帶的位元,直到對於被包含於給定框中所有子頻帶估測的配置位元數目的總合、與給定框中的許可位元數目B相同。
(19)
在式(19)中,
表示第(k-1)個重複運算決定的位元的數目,
表示第k個重複運算決定的位元的數目。每個重複運算決定的位元的數目必須不小於0,且相應地對於有大於0的位元數目的子頻帶執行操作1640。
在操作1650中,如果對於被包含於給定框中所有子頻帶估測的配置位元數目的總合、與在操作1630中所比較的結果、即給定框中許可位元數目B相同,則各個子頻帶的配置位元數目本身即被使用,或者藉由使用各個子頻帶的配置位元數目來決定用於各個子頻帶的最終的配置位元數目,此各個子頻帶的配置位元數目由在操作1640中重分配的結果而取得。
圖17是依照本發明另一實施例所繪示的位元配置方法的流程圖。
請參照圖 17,如同圖16的操作1610,在操作1710中執行初始化。如同圖16的操作1620,在操作1720中以十進位小數點單位估測出用於各個子頻帶的配置位元數目,且當各個子頻帶的每一樣本的配置位元數目L
b小於0時,0被配置到有小於0的值的L
b,如同式(18)。
在操作1730中,就SNR而論來定義各個子頻帶所需的最小位元數目,且藉由將配置位元數目限制到最小位元數目,而調整大於0與小於最小位元數目的在操作1720中的配置位元數目。如此,藉由將各個子頻帶的配置位元數目限制到最小位元數目,可使聲音品質下降的可能性減少。舉例來說,各個子頻帶所需的最小位元數目被定義成:在階乘脈衝編碼中的脈衝編碼所需的最小位元數目。階乘脈衝編碼藉由使用所有非0脈衝位置、脈衝量與脈衝記號的組合來代表一個訊號。在此例中,可以代表脈衝的所有組合的偶然數N(occasional number),可由式(20)來表示。
(20)
在式(20)中,2
i表示:在i 非零位置的記號的偶然數,此記號用+/-表示訊號。
在式(20)中,F(n, i)可由式(21)定義,其中指出一偶然數,用於選擇給定n樣本的i非零位置,即位置。
(21)
在式(20)中,D(m, i)可用式(22)來表示,其中指出一偶然數,用於表示:藉由m大小(magnitudes)、而在i非零位置所選擇的訊號。
(22)
用於表示此N組合而所需的位元的數目M 可以式(23)來表示。
(23)
作為結果,為了對在給定bth 子頻帶中、用於N
b樣本的一脈衝的最小值進行編碼,而所需的最小位元數目L
b_min,可由式(24)表示。
(24)
在此例中,用來傳送量化所需的增益值的位元數目,其可被加至階乘脈衝編碼所需的最小位元數目,且可根據位元速率來變更。基於各個頻帶所需的最小位元數目可藉由下述數值來決定,此數值為:來自於階乘脈衝編碼所需的多個最小位元數目之間的較大數值、與如式(25)所示的給定子頻帶的樣本的數目N
b。舉例來說,基於各個頻帶所需的最小位元數目可被設定成:每個樣本1位元。
(25)
當因目標位元速率(target bit rate)為小、使得所使用的位元在操作1730中不足夠時,此配置位元數目被取出(withdrawn)及調整至0,其中對於子頻帶的配置位元數目是大於0且小於最小位元數目。此外,對於子頻帶的配置位元數目小於式(24)所述的話,則配置位元數可被抽出,且對於子頻帶的配置位元數目大於式(24)且小於式(25) 的最小位元數目的話,則可配置所述最小位元數目。
在操作1740中,對給定框中所有子頻帶而估測的配置位元數目的總合、與給定框中許可的位元數目進行比較。
在操作1750中,對子頻帶重分配位元,其中配置比最小位元數目還多的位元至子頻帶,直到對於給定框中所有子頻帶而估測的配置位元數目的總合、與給定框中許可的位元數目相同。
在操作1760中,決定:於位元的重分配中,各個子頻帶的配置位元數目是否在先前重複運算與現在重複運算之間進行改變。如果於位元的重分配中,各個子頻帶的配置位元數目並沒有在先前重複運算與現在重複運算之間進行改變,或直到對於給定框中所有子頻帶進行估測的配置位元數目的總合、與於給定框中的許可位元數目相同,則操作1740至1760 是被執行的。
在操作1770中,於位元重分配中,作為操作1760 的決定結果,如果各個子頻帶的配置位元數目並沒有在先前重複運算與現在重複運算之間進行改變,則從頂部子頻帶(top sub-band)至底部子頻帶(bottom sub-band)依序地取出(withdraw)位元,且操作1740至1760被執行、直到滿足給定框中許可的位元數目。
也就是說,子頻帶的配置位元數目大於式(25)的最小位元數目的話,將執行調整操作且同時減少配置位元數目,直到滿足給定框中許可的位元數目。此外,如果配置位元數目等於或小於式(25)所有子頻帶的最小位元數目,且配置位元數目的總合大於給定框的許可的位元數目,則配置位元數目可被從高頻帶至低頻帶被取出。
根據圖16與圖17中的位元配置方法,為了配置位元至各個子頻帶,在依照頻譜能量或權重頻譜能量的順序(order)來配置初始的位元至各個子頻帶之後,在無須多次重複尋找頻譜能量或權重頻譜能量的操作下,各個子頻帶所需的位元數目可被立即地被估測出來。另外,藉由重分配位元至各個子頻帶,直到對給定框中所有子頻帶估測的配置位元數目的總合、與給定框的許可的位元數目相同,則有效率的位元配置是有可能的。另外,藉由保證最小位元數目至任意的子頻帶,可預防頻譜洞的產生,此頻譜洞是由於小位元數目的配置,而使得無法對頻譜樣本的足夠數目或脈衝進行編碼。
可以藉由至少一個的處理裝置,像是中央處理單元(central processing unit,CPU),來使圖14至圖17的方法被程式化、且可被執行。
圖18是依照本發明一實施例所繪示的多媒體元件的方塊圖,此多媒體元件包含編碼模組。
請參照圖18,多媒體元件1800可包括:通訊單元1810與編碼模組1830。此外,多媒體元件1800可更包括:儲存單元1850,用來儲存音訊位元流,此音訊位元流是根據音訊位元流的使用而取得的編碼結果。此外,多媒體元件1800可更包括:麥克風1870。也就是說,儲存單元1850與麥克風1870可以是選擇性(optional)地被包含。多媒體元件1800可更包括:任意的解碼模組 (未繪示),如用於執行一般解碼功能的解碼模組、或根據另一實施例中的解碼模組。藉由對被包含於多媒體元件 2000中而成為一體的其他零件(未繪示)進行整合,編碼模組1830可由至少一處理器來執行,如中央處理單元(central processing unit)(未繪示)。
通訊單元1810可接收至少一音訊訊號或從外面提供的編碼位元流,或者,傳送至少一復原的音訊訊號或編碼模組1830所編碼的作為結果而獲得的編碼位元流。
通訊單元1810被配置來:經由無線或有線的網路,來傳送資料至外部的多媒體元件、與從外部的多媒體資料接收資料;無線網路如:無線網際網路、無線內部網路、無線電話網路、無線區域網路(Local Area Network,LAN),Wi-Fi、Wi-Fi直連(Wi-Fi Direct,WFD)、第三代通訊(3G)、第四代通訊(4G)、藍芽(Bluetooth)、紅外線數據通信(Infrared Data Association,IrDA)、無線射頻識別(Radio Frequency Identification,RFID)、超寬頻通訊(Ultra WideBand,UWB)、紫蜂(Zigbee)、或近場無線通訊(Near Field Communication,NFC)。有線網絡如:有線電話網路或有線網際網路。
根據一實施例,編碼模組1830 可藉由下述方法來產生位元流,此方法包括:把時域中的音訊訊號(經由通訊單元1810或麥克風1870而提供)轉換成頻域中的音訊頻譜;在音訊頻譜的給定框中的許可位元數目的範圍之內,基於頻帶決定十進位小數點單位的配置位元數目,以致於存在預定頻帶的頻譜的訊雜比(SNR)被最大化;調整基於頻帶而決定的配置位元數目;以及藉由使用基於頻帶與頻譜能量而調整的位元數目,來對音訊頻譜進行編碼。
根據另一實施例,編碼模組1830 可藉由下述方法來產生位元流,此方法包括:把時域中的音訊訊號(經由通訊單元1810或麥克風1870而提供)轉換成頻域中的音訊頻譜;基於被包含於音訊頻譜的給定框中的頻帶,而藉由使用遮蔽臨界值,來估測十進位小數點單位的許可位元數目;使用頻譜能量,來估測十進位小數點單位的配置位元數目;調整配置位元數目不超過許可位元數目;以及使用基於頻帶與頻譜能量而調整的位元數目,來對音訊頻譜進行編碼。
儲存單元1850可儲存由編碼模組1830產生的編碼位元流。此外,儲存單元1850可儲存多種用於操作多媒體元件1800所需的程式。
麥克風1870可從使用者或外面,提供音訊訊號至編碼模組 1830。
圖19是依照本發明一實施例所繪示的多媒體元件的方塊圖,此多媒體元件包含解碼模組。
圖19的多媒體元件1900可包括:通訊單元 1910與解碼模組1930。此外,根據作為解碼結果而取得的復原的音訊訊號的使用,圖19的多媒體元件1900可更包括:儲存單元1950,用來儲存復原的音訊訊號。此外,圖19的多媒體元件1900可更包括:揚聲器1970。也就是說,儲存單元1950與揚聲器1970是選擇性的。圖19的多媒體元件1900可更包括:編碼模組(未繪示),如:用於執行一般編碼功能的編碼模組或根據實施例的編碼模組。解碼模組1930可與被包含於多媒體元件1900的其他零件(未繪示)進行整合,且由至少一處理器來執行,如中央處理單元(CPU)。
請參照圖 19,通訊單元1910可接收至少一音訊訊號 或接收從外部提供的編碼位元流,或者,通訊單元1910可傳送由解碼模組1930的解碼結果取得的至少一復原的音訊訊號、或傳送由編碼結果而取得的音訊位元流。通訊單元1910與圖18的通訊單元1810為實質且類似地被實施。
根據一實施例,解碼模組1930可藉由下述方法來產生復原的音訊訊號,此方法包括:接收經由通訊單元1910提供的位元流;在給定框中許可位元數目的範圍之內,基於頻帶決定十進位小數點單位的配置位元目,以致於存在於每個頻帶的頻譜的訊雜比(SNR)被最大化;調整基於頻帶而決定的配置位元數目;藉由使用基於頻帶與頻譜能量而調整的位元數目,來對被包含在位元流的音訊頻譜進行解碼;以及把解碼的音訊頻譜轉換成時域中的音訊訊號。
根據另一實施例,解碼模組1930可藉由下述方法產生復原的音訊訊號,此方法包括:接收經由通訊單元1910提供的位元流;基於被包含在給定框中的頻帶而使用遮蔽臨界值,來估測十進位小數點單位的許可位元數目;使用頻譜能量來估測十進位小數點單位的配置位元數目;調整配置位元數目不超過許可位元數目;使用基於頻帶與頻譜能量而調整的位元數目,來對被包含在位元流的音訊頻譜進行解碼;以及把解碼的音訊頻譜轉換成時域中的音訊訊號。
儲存單元1950可儲存復原的音訊訊號,其由解碼模組1930所產生。此外,儲存單元1950可儲存為了多種程式,為操作多媒體元件1900所需要。
揚聲器1970可輸出:復原的、由解碼模組1930產生的音訊訊號至外面。
圖20是依照本發明一實施例所繪示的多媒體元件的方塊圖,此多媒體元件包含:編碼模組與解碼模組。
圖20繪示的多媒體元件2000可包括:通訊單元2010、編碼模組2020、與解碼模組2030。此外,多媒體元件2000可更包括:儲存單元2040,此儲存單元2040儲存從編碼結果而得到的音訊位元流,或儲存根據音訊位元流的使用或復原的音訊訊號解碼的結果而得到的復原的音訊訊號。此外,多媒體元件2000可更包括:麥克風2050 及/或揚聲器2060。藉由對被包含於多媒體元件 2000中而成為一體的其他零件(未繪示)進行整合,編碼模組2020與解碼模組2030可由至少一處理器執行,如中央處理單元(central processing unit,CPU) (未繪示)。
由於繪示於圖20的多媒體元件2000的零件相當於圖18的多媒體元件1800的零件、或圖19的多媒體元件1900的零件,所以省略詳細的描述。
每個繪示於圖18、圖19、圖20的多媒體元件1800、1900與2000可包括:單一聲音通訊終端(voice communication only terminal),如電話或行動電話;單一廣播與音樂裝置,如電視或MP3播放器;或單一聲音通訊終端與單一廣播與音樂裝置的混合式終端裝置,但非用以限定本發明。此外,每個媒體裝置1800、1900與2000可被用作客戶端、伺服器、或客戶端與伺服器之間的變換器(transducer)。
當多媒體元件1800、1900或2000例如為行動電話時,雖然未繪示,多媒體元件1800、1900或2000可更包括:像是鍵盤的使用者輸入單元、顯示由使用者介面或行動電話處理的資訊的顯示單元、與用來控制行動電話的功能的處理器。此外,行動電話可更包括:有影像擷取功能的相機單元、與至少一個用來執行行動電話的功能所需要的零件。
當多媒體元件1800、1900或2000例如為電視,雖然未繪示,多媒體元件1800、1900或2000可更包括:像是鍵盤的使用者輸入單元、顯示接受的播放資訊的顯示單元、與用來控制電視的所有功能的處理器。此外,電視可更包括:至少一個的用來執行電視的功能的零件。
根據實施例的方法可被寫成電腦程式,且在一般使用的數位電腦被實施,此數位電腦執行了使用電腦可讀式記錄媒體的程式。此外,資料結構、程式指令、或可使用於實施例的資料檔案,可用許多不同方式而被記錄於電腦可讀式記錄媒體。電腦可讀式記錄媒體可以是任何的資料儲存裝置,此資料儲存裝置可儲存:電腦系統之後可讀取的資料。電腦可讀式記錄媒體的例子包括:磁性媒體,像是硬碟、軟性磁碟、磁帶;光學媒體,像是CD-ROMs 與DVD;及磁光媒體,像是軟磁光碟;與硬體裝置,像是ROMs、RAMs;與特別是配置來儲存與執行程式指令的快閃記憶體。此外,電腦可讀式記錄媒體可以是用來傳送訊號的傳送媒體,其中程式指令與資料結構是被設計好的。程式指令可以包括:由編譯器編輯的機器語言碼、以及由使用翻譯器的電腦執行的高階語言碼。
在參照所述實施例而詳細地顯示與描述本發明概念的同時,可理解到,所屬技術領域中具有通常知識者可在不脫離本發明概念的精神和範圍內,當可作多種的形式上與細節的改變,本發明概念的保護範圍當視後附的申請專利範圍所界定者為準。
100:音訊編碼裝置 130:轉換單元 150、200、300、400、650、730:位元配置單元 170、500、670:編碼單元 190、690:多工單元 210:範數估測器 230:範數編碼器 250:位元估測器與配置器 310:心理聲學模型 330、430、830:位元估測器與配置器 350、450:尺度因子估測器 370、470:尺度因子編碼器 410:範數估測器 510:頻譜標準化單元 530:頻譜編碼器 600:音訊編碼裝置 610:暫態偵測單元 630:轉換單元 700:音訊解碼裝置 710:解多工單元 750、900、1000、1100、1350:解碼單元 770、1270、1370:反向轉換單元 800、1330:位元配置單元 810:範數解碼器 910、1010、1110、1250:頻譜解碼器 930、1030、1150:封包整形單元 1050、1130:頻譜填充單元 1200、1300:音訊解碼裝置 1210、1310:解多工單元 1230:尺度因子解碼器 1410~1470、1510~1570:操作 1610~1650、1710~1770:操作 1800:多媒體元件 1810、1910、2010:通訊單元 1830、2020:編碼模組 1850、1950、2040:儲存單元 1870、2050:麥克風 1900:多媒體元件 1930、2030:解碼模組 1970、2060:揚聲器
圖1是依照本發明一實施例所繪示的音訊編碼裝置的方塊圖。 圖2是依照本發明一實施例所繪示的圖1的音訊編碼裝置中的位元配置單元的方塊圖。 圖3是依照本發明另一實施例所繪示的圖1的音訊編碼裝置中的位元配置單元的方塊圖。 圖4是依照本發明另一實施例所繪示的圖1的音訊編碼裝置中的位元配置單元的方塊圖。 圖5是依照本發明一實施例所繪示的圖1的音訊編碼裝置中的編碼單元的方塊圖。 圖6是依照本發明另一實施例所繪示的音訊編碼裝置的方塊圖。 圖7是依照本發明一實施例所繪示的音訊解碼裝置的方塊圖。 圖8是依照本發明一實施例所繪示的圖7的音訊解碼裝置中的位元配置單元的方塊圖。 圖9是依照本發明一實施例所繪示的圖7的音訊解碼裝置中的解碼單元的方塊圖。 圖10是依照本發明另一實施例所繪示的圖7的音訊解碼裝置中的解碼單元的方塊圖。 圖11是依照本發明另一實施例所繪示的圖7的音訊解碼裝置中的解碼單元的方塊圖。 圖12是依照本發明另一實施例所繪示的音訊解碼裝置的方塊圖。 圖13是依照本發明另一實施例所繪示的音訊解碼裝置的方塊圖。 圖14是依照本發明另一實施例所繪示的位元配置方法的流程圖。 圖15是依照本發明另一實施例所繪示的位元配置方法的流程圖。 圖16是依照本發明另一實施例所繪示的位元配置方法的流程圖。 圖17是依照本發明另一實施例所繪示的位元配置方法的流程圖。 圖18是依照本發明一實施例所繪示的包含編碼模組的多媒體元件的方塊圖。 圖19是依照本發明一實施例所繪示的包含解碼模組的多媒體元件的方塊圖。 圖20是依照本發明一實施例所繪示的包含編碼模組與解碼模組的多媒體元件的方塊圖。
1410~1470:操作
Claims (5)
- 一種位元配置裝置,包括: 至少一個處理元件,經組態以: 執行部分地估測而將位元配置在語音信號的框中的每一個子頻帶,其中在經估測的位元小於零時將所述經估測的位元設定為零;以及 基於最小位元限制,對所述經估測的位元進行重新分布至少一個具非零位元的子頻帶,以決定被配置至每一個子頻帶的所述位元。
- 如申請專利範圍第1項所述的位元配置裝置,其中所述處理元件經組態以在經決定的位元小於對子頻帶所設定的預定最小位元時,藉由將所述經決定的位元設定為零來對所述經估測的位元進行重新分布。
- 如申請專利範圍第1項所述的位元配置裝置,其中所述處理元件經組態以基於對子頻帶所設定的預定最小位元,藉由限制經決定的位元來對所述經估測的位元進行重新分布。
- 如申請專利範圍第1項所述的位元配置裝置,其中所述處理元件經組態以在經決定的位元小於預定最小位元時,藉由將所述經決定的位元設定至對子頻帶所設定的預定最小位元來對所述經估測的位元進行重新分布。
- 如申請專利範圍第1項所述的位元配置裝置,其中所述處理元件經組態以基於高階頻帶的經決定的位元來對所述經估測的位元進行重新分布。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161485741P | 2011-05-13 | 2011-05-13 | |
US201161495014P | 2011-06-09 | 2011-06-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201705123A TW201705123A (zh) | 2017-02-01 |
TWI576829B true TWI576829B (zh) | 2017-04-01 |
Family
ID=47141906
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101117139A TWI562133B (en) | 2011-05-13 | 2012-05-14 | Bit allocating method and non-transitory computer-readable recording medium |
TW105133790A TWI606441B (zh) | 2011-05-13 | 2012-05-14 | 解碼裝置 |
TW106103488A TWI604437B (zh) | 2011-05-13 | 2012-05-14 | 位元配置方法、裝置及電腦可讀取記錄媒體 |
TW105133789A TWI576829B (zh) | 2011-05-13 | 2012-05-14 | 位元配置裝置 |
TW101117138A TWI562132B (en) | 2011-05-13 | 2012-05-14 | Noise filling method |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101117139A TWI562133B (en) | 2011-05-13 | 2012-05-14 | Bit allocating method and non-transitory computer-readable recording medium |
TW105133790A TWI606441B (zh) | 2011-05-13 | 2012-05-14 | 解碼裝置 |
TW106103488A TWI604437B (zh) | 2011-05-13 | 2012-05-14 | 位元配置方法、裝置及電腦可讀取記錄媒體 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101117138A TWI562132B (en) | 2011-05-13 | 2012-05-14 | Noise filling method |
Country Status (15)
Country | Link |
---|---|
US (7) | US9236057B2 (zh) |
EP (5) | EP2707874A4 (zh) |
JP (3) | JP6189831B2 (zh) |
KR (7) | KR102053900B1 (zh) |
CN (3) | CN105825859B (zh) |
AU (3) | AU2012256550B2 (zh) |
BR (1) | BR112013029347B1 (zh) |
CA (1) | CA2836122C (zh) |
MX (3) | MX337772B (zh) |
MY (2) | MY186720A (zh) |
RU (2) | RU2648595C2 (zh) |
SG (1) | SG194945A1 (zh) |
TW (5) | TWI562133B (zh) |
WO (2) | WO2012157931A2 (zh) |
ZA (1) | ZA201309406B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100266989A1 (en) | 2006-11-09 | 2010-10-21 | Klox Technologies Inc. | Teeth whitening compositions and methods |
KR102053900B1 (ko) | 2011-05-13 | 2019-12-09 | 삼성전자주식회사 | 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 |
EP2728577A4 (en) | 2011-06-30 | 2016-07-27 | Samsung Electronics Co Ltd | APPARATUS AND METHOD FOR GENERATING A BANDWIDTH EXTENSION SIGNAL |
US8586847B2 (en) * | 2011-12-02 | 2013-11-19 | The Echo Nest Corporation | Musical fingerprinting based on onset intervals |
US11116841B2 (en) | 2012-04-20 | 2021-09-14 | Klox Technologies Inc. | Biophotonic compositions, kits and methods |
CN105976824B (zh) * | 2012-12-06 | 2021-06-08 | 华为技术有限公司 | 信号解码的方法和设备 |
KR102200643B1 (ko) | 2012-12-13 | 2021-01-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법 |
CN103107863B (zh) * | 2013-01-22 | 2016-01-20 | 深圳广晟信源技术有限公司 | 一种分段平均码率的数字音频信源编码方法及装置 |
KR101757347B1 (ko) * | 2013-01-29 | 2017-07-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 지각적 변환 오디오 코딩에서의 노이즈 채움 |
US20140276354A1 (en) | 2013-03-14 | 2014-09-18 | Klox Technologies Inc. | Biophotonic materials and uses thereof |
CN108198564B (zh) | 2013-07-01 | 2021-02-26 | 华为技术有限公司 | 信号编码和解码方法以及设备 |
EP3614381A1 (en) * | 2013-09-16 | 2020-02-26 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
CA2927990C (en) * | 2013-10-31 | 2018-08-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain |
CN111370008B (zh) | 2014-02-28 | 2024-04-09 | 弗朗霍弗应用研究促进协会 | 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置 |
CN106409300B (zh) | 2014-03-19 | 2019-12-24 | 华为技术有限公司 | 用于信号处理的方法和装置 |
CN111710342B (zh) * | 2014-03-31 | 2024-04-16 | 弗朗霍弗应用研究促进协会 | 编码装置、解码装置、编码方法、解码方法及程序 |
CN105336339B (zh) | 2014-06-03 | 2019-05-03 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
US9361899B2 (en) * | 2014-07-02 | 2016-06-07 | Nuance Communications, Inc. | System and method for compressed domain estimation of the signal to noise ratio of a coded speech signal |
EP2980792A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
CN111968656B (zh) | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
EP3208800A1 (en) * | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
CN105957533B (zh) * | 2016-04-22 | 2020-11-10 | 杭州微纳科技股份有限公司 | 语音压缩方法、语音解压方法及音频编码器、音频解码器 |
CN106782608B (zh) * | 2016-12-10 | 2019-11-05 | 广州酷狗计算机科技有限公司 | 噪声检测方法及装置 |
CN108174031B (zh) * | 2017-12-26 | 2020-12-01 | 上海展扬通信技术有限公司 | 一种音量调节方法、终端设备及计算机可读存储介质 |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN108833324B (zh) * | 2018-06-08 | 2020-11-27 | 天津大学 | 一种基于时域限幅噪声消除的haco-ofdm系统接收方法 |
CN108922556B (zh) * | 2018-07-16 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
CN110265043B (zh) * | 2019-06-03 | 2021-06-01 | 同响科技股份有限公司 | 自适应有损或无损的音频压缩和解压缩演算方法 |
CN114514575A (zh) | 2019-11-01 | 2022-05-17 | 三星电子株式会社 | 集线器装置、包括集线器装置和多个装置的多装置系统以及集线器装置和多装置系统的操作方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1239368A (zh) * | 1998-06-16 | 1999-12-22 | 松下电器产业株式会社 | 用于音频编码的动态位分配装置和方法 |
US20060069555A1 (en) * | 2004-09-13 | 2006-03-30 | Ittiam Systems (P) Ltd. | Method, system and apparatus for allocating bits in perceptual audio coders |
TW200926147A (en) * | 2007-10-17 | 2009-06-16 | Fraunhofer Ges Forschung | Audio coding using downmix |
TW200935402A (en) * | 2007-10-22 | 2009-08-16 | Qualcomm Inc | Scalable speech and audio encoding using combinatorial encoding of MDCT spectrum |
TW201013640A (en) * | 2008-05-29 | 2010-04-01 | Qualcomm Inc | Systems, methods, apparatus, and computer program products for spectral contrast enhancement |
Family Cites Families (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
JPH03181232A (ja) | 1989-12-11 | 1991-08-07 | Toshiba Corp | 可変レート符号化方式 |
JP2560873B2 (ja) * | 1990-02-28 | 1996-12-04 | 日本ビクター株式会社 | 直交変換符号化復号化方法 |
JPH0414355A (ja) | 1990-05-08 | 1992-01-20 | Matsushita Electric Ind Co Ltd | 構内交換機のリンガ信号送出方法 |
JPH04168500A (ja) * | 1990-10-31 | 1992-06-16 | Sanyo Electric Co Ltd | 信号符号化方法 |
JPH05114863A (ja) | 1991-08-27 | 1993-05-07 | Sony Corp | 高能率符号化装置及び復号化装置 |
JP3141450B2 (ja) | 1991-09-30 | 2001-03-05 | ソニー株式会社 | オーディオ信号処理方法 |
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
JP3153933B2 (ja) * | 1992-06-16 | 2001-04-09 | ソニー株式会社 | データ符号化装置及び方法並びにデータ復号化装置及び方法 |
JPH06348294A (ja) * | 1993-06-04 | 1994-12-22 | Sanyo Electric Co Ltd | 帯域分割符号化装置 |
US5893065A (en) * | 1994-08-05 | 1999-04-06 | Nippon Steel Corporation | Apparatus for compressing audio data |
TW271524B (zh) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
KR0144011B1 (ko) * | 1994-12-31 | 1998-07-15 | 김주용 | 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법 |
DE19638997B4 (de) * | 1995-09-22 | 2009-12-10 | Samsung Electronics Co., Ltd., Suwon | Digitales Toncodierungsverfahren und digitale Toncodierungsvorrichtung |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3189660B2 (ja) | 1996-01-30 | 2001-07-16 | ソニー株式会社 | 信号符号化方法 |
JP3181232B2 (ja) | 1996-12-19 | 2001-07-03 | 立川ブラインド工業株式会社 | ロールブラインドのスクリーン取付装置 |
JP3328532B2 (ja) * | 1997-01-22 | 2002-09-24 | シャープ株式会社 | デジタルデータの符号化方法 |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
JP3802219B2 (ja) * | 1998-02-18 | 2006-07-26 | 富士通株式会社 | 音声符号化装置 |
JP4168500B2 (ja) | 1998-11-04 | 2008-10-22 | 株式会社デンソー | 半導体装置およびその実装方法 |
JP2000148191A (ja) * | 1998-11-06 | 2000-05-26 | Matsushita Electric Ind Co Ltd | ディジタルオーディオ信号の符号化装置 |
TW477119B (en) * | 1999-01-28 | 2002-02-21 | Winbond Electronics Corp | Byte allocation method and device for speech synthesis |
JP2000293199A (ja) * | 1999-04-05 | 2000-10-20 | Nippon Columbia Co Ltd | 音声符号化方法および記録再生装置 |
US6687663B1 (en) * | 1999-06-25 | 2004-02-03 | Lake Technology Limited | Audio processing method and apparatus |
US6691082B1 (en) | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
JP2002006895A (ja) * | 2000-06-20 | 2002-01-11 | Fujitsu Ltd | ビット割当装置および方法 |
JP4055336B2 (ja) * | 2000-07-05 | 2008-03-05 | 日本電気株式会社 | 音声符号化装置及びそれに用いる音声符号化方法 |
JP4190742B2 (ja) * | 2001-02-09 | 2008-12-03 | ソニー株式会社 | 信号処理装置及び方法 |
DE60209888T2 (de) * | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | Kodieren eines audiosignals |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
KR100462611B1 (ko) * | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
US7272566B2 (en) * | 2003-01-02 | 2007-09-18 | Dolby Laboratories Licensing Corporation | Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique |
FR2849727B1 (fr) * | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
JP2005202248A (ja) * | 2004-01-16 | 2005-07-28 | Fujitsu Ltd | オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路 |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
JP2005265865A (ja) * | 2004-02-16 | 2005-09-29 | Matsushita Electric Ind Co Ltd | オーディオ符号化のためのビット割り当て方法及び装置 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
KR100695125B1 (ko) * | 2004-05-28 | 2007-03-14 | 삼성전자주식회사 | 디지털 신호 부호화/복호화 방법 및 장치 |
US7979721B2 (en) * | 2004-11-15 | 2011-07-12 | Microsoft Corporation | Enhanced packaging for PC security |
CN1780278A (zh) * | 2004-11-19 | 2006-05-31 | 松下电器产业株式会社 | 子载波通信系统中自适应调制与编码方法和设备 |
KR100657948B1 (ko) * | 2005-02-03 | 2006-12-14 | 삼성전자주식회사 | 음성향상장치 및 방법 |
DE202005010080U1 (de) | 2005-06-27 | 2006-11-09 | Pfeifer Holding Gmbh & Co. Kg | Verbindungsvorrichtung |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7734053B2 (en) * | 2005-12-06 | 2010-06-08 | Fujitsu Limited | Encoding apparatus, encoding method, and computer product |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
JP2007264154A (ja) * | 2006-03-28 | 2007-10-11 | Sony Corp | オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置 |
JP5114863B2 (ja) * | 2006-04-11 | 2013-01-09 | 横浜ゴム株式会社 | 空気入りタイヤおよび空気入りタイヤの組立方法 |
SG136836A1 (en) * | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
JP4823001B2 (ja) * | 2006-09-27 | 2011-11-24 | 富士通セミコンダクター株式会社 | オーディオ符号化装置 |
US7953595B2 (en) * | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
KR101291672B1 (ko) * | 2007-03-07 | 2013-08-01 | 삼성전자주식회사 | 노이즈 신호 부호화 및 복호화 장치 및 방법 |
PT2186089T (pt) * | 2007-08-27 | 2019-01-10 | Ericsson Telefon Ab L M | Método e dispositivo para descodificação espetral percetual de um sinal áudio que inclui preenchimento de buracos espetrais |
ATE535904T1 (de) * | 2007-08-27 | 2011-12-15 | Ericsson Telefon Ab L M | Verbesserte transformationskodierung von sprach- und audiosignalen |
CN101239368A (zh) | 2007-09-27 | 2008-08-13 | 骆立波 | 异型盖整平模具及其整平方法 |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
US8364471B2 (en) * | 2008-11-04 | 2013-01-29 | Lg Electronics Inc. | Apparatus and method for processing a time domain audio signal with a noise filling flag |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
EP2561508A1 (en) * | 2010-04-22 | 2013-02-27 | Qualcomm Incorporated | Voice activity detection |
CN101957398B (zh) | 2010-09-16 | 2012-11-28 | 河北省电力研究院 | 一种基于机电与电磁暂态混合仿真技术检测计算电网一次时间常数的方法 |
JP5609591B2 (ja) * | 2010-11-30 | 2014-10-22 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
EP2975611B1 (en) * | 2011-03-10 | 2018-01-10 | Telefonaktiebolaget LM Ericsson (publ) | Filling of non-coded sub-vectors in transform coded audio signals |
JP5648123B2 (ja) * | 2011-04-20 | 2015-01-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
KR102053900B1 (ko) * | 2011-05-13 | 2019-12-09 | 삼성전자주식회사 | 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 |
US8731949B2 (en) * | 2011-06-30 | 2014-05-20 | Zte Corporation | Method and system for audio encoding and decoding and method for estimating noise level |
RU2505921C2 (ru) * | 2012-02-02 | 2014-01-27 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и устройство кодирования и декодирования аудиосигналов (варианты) |
-
2012
- 2012-05-14 KR KR1020120051071A patent/KR102053900B1/ko active IP Right Grant
- 2012-05-14 MX MX2015005615A patent/MX337772B/es unknown
- 2012-05-14 JP JP2014511291A patent/JP6189831B2/ja active Active
- 2012-05-14 SG SG2013084173A patent/SG194945A1/en unknown
- 2012-05-14 TW TW101117139A patent/TWI562133B/zh active
- 2012-05-14 CN CN201610341675.1A patent/CN105825859B/zh active Active
- 2012-05-14 US US13/471,020 patent/US9236057B2/en active Active
- 2012-05-14 RU RU2013155482A patent/RU2648595C2/ru active
- 2012-05-14 EP EP12785222.6A patent/EP2707874A4/en not_active Ceased
- 2012-05-14 AU AU2012256550A patent/AU2012256550B2/en active Active
- 2012-05-14 KR KR1020120051070A patent/KR102053899B1/ko active IP Right Grant
- 2012-05-14 RU RU2018108586A patent/RU2705052C2/ru active
- 2012-05-14 BR BR112013029347-0A patent/BR112013029347B1/pt active IP Right Grant
- 2012-05-14 MX MX2016003429A patent/MX345963B/es unknown
- 2012-05-14 WO PCT/KR2012/003776 patent/WO2012157931A2/en active Application Filing
- 2012-05-14 WO PCT/KR2012/003777 patent/WO2012157932A2/en active Application Filing
- 2012-05-14 TW TW105133790A patent/TWI606441B/zh active
- 2012-05-14 EP EP12786182.1A patent/EP2707875A4/en not_active Ceased
- 2012-05-14 MY MYPI2017001633A patent/MY186720A/en unknown
- 2012-05-14 US US13/471,046 patent/US9159331B2/en active Active
- 2012-05-14 EP EP18158653.8A patent/EP3346465A1/en not_active Ceased
- 2012-05-14 CN CN201610341124.5A patent/CN105825858B/zh active Active
- 2012-05-14 MY MYPI2013004216A patent/MY164164A/en unknown
- 2012-05-14 MX MX2013013261A patent/MX2013013261A/es active IP Right Grant
- 2012-05-14 TW TW106103488A patent/TWI604437B/zh active
- 2012-05-14 EP EP18170208.5A patent/EP3385949A1/en active Pending
- 2012-05-14 TW TW105133789A patent/TWI576829B/zh active
- 2012-05-14 EP EP21193627.3A patent/EP3937168A1/en active Pending
- 2012-05-14 CN CN201280034734.0A patent/CN103650038B/zh active Active
- 2012-05-14 CA CA2836122A patent/CA2836122C/en active Active
- 2012-05-14 TW TW101117138A patent/TWI562132B/zh active
-
2013
- 2013-12-12 ZA ZA2013/09406A patent/ZA201309406B/en unknown
-
2015
- 2015-10-09 US US14/879,739 patent/US9489960B2/en active Active
- 2015-12-11 US US14/966,043 patent/US9711155B2/en active Active
-
2016
- 2016-11-07 US US15/330,779 patent/US9773502B2/en active Active
- 2016-11-23 AU AU2016262702A patent/AU2016262702B2/en active Active
-
2017
- 2017-05-10 JP JP2017094252A patent/JP2017194690A/ja not_active Ceased
- 2017-07-17 US US15/651,764 patent/US10276171B2/en active Active
- 2017-09-25 US US15/714,428 patent/US10109283B2/en active Active
-
2018
- 2018-01-16 AU AU2018200360A patent/AU2018200360B2/en active Active
-
2019
- 2019-04-18 JP JP2019079583A patent/JP6726785B2/ja active Active
- 2019-12-03 KR KR1020190159358A patent/KR102209073B1/ko active IP Right Grant
- 2019-12-03 KR KR1020190159364A patent/KR102193621B1/ko active IP Right Grant
-
2020
- 2020-12-15 KR KR1020200175854A patent/KR102284106B1/ko active IP Right Grant
-
2021
- 2021-01-22 KR KR1020210009642A patent/KR102409305B1/ko active IP Right Grant
-
2022
- 2022-01-03 KR KR1020220000533A patent/KR102491547B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1239368A (zh) * | 1998-06-16 | 1999-12-22 | 松下电器产业株式会社 | 用于音频编码的动态位分配装置和方法 |
US20060069555A1 (en) * | 2004-09-13 | 2006-03-30 | Ittiam Systems (P) Ltd. | Method, system and apparatus for allocating bits in perceptual audio coders |
TW200926147A (en) * | 2007-10-17 | 2009-06-16 | Fraunhofer Ges Forschung | Audio coding using downmix |
TW200935402A (en) * | 2007-10-22 | 2009-08-16 | Qualcomm Inc | Scalable speech and audio encoding using combinatorial encoding of MDCT spectrum |
TW201013640A (en) * | 2008-05-29 | 2010-04-01 | Qualcomm Inc | Systems, methods, apparatus, and computer program products for spectral contrast enhancement |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI576829B (zh) | 位元配置裝置 |