TWI423251B - 加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置 - Google Patents

加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置 Download PDF

Info

Publication number
TWI423251B
TWI423251B TW096131326A TW96131326A TWI423251B TW I423251 B TWI423251 B TW I423251B TW 096131326 A TW096131326 A TW 096131326A TW 96131326 A TW96131326 A TW 96131326A TW I423251 B TWI423251 B TW I423251B
Authority
TW
Taiwan
Prior art keywords
time
parameter
boundary
frequency
parameter boundary
Prior art date
Application number
TW096131326A
Other languages
English (en)
Other versions
TW200816167A (en
Inventor
Peter Jax
Sven Kordon
Original Assignee
Thomson Licensing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing filed Critical Thomson Licensing
Publication of TW200816167A publication Critical patent/TW200816167A/zh
Application granted granted Critical
Publication of TWI423251B publication Critical patent/TWI423251B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission

Description

加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置
本發明係關於聲頻訊號之轉碼方法和裝置。與聲頻壓縮領域,尤其是不同知覺的聲頻寫碼格式間之轉碼領域有關。惟亦有益於使用本發明基本概念,於其他聲頻處理用途上。
「聲頻轉碼」一辭常指按照特定聲頻寫碼格式代表聲頻訊號的位元流,與按照不同的聲頻寫碼格式所組織的另一位元流之偏差。在此意義上,「轉碼」指從MPEG層Ⅲ(mp3)順應性位元流獲得例如MPEG AAC順應性位元流的完全程序。
文獻上已知一般性知覺聲頻編碼(T.Painter和A.Spanias(2000):〈數位聲頻之知覺寫碼〉,載Proceeding of the IEEE,第88卷)之基本原理,如第1圖所示。
於今聲頻訊號的壓縮方法和格式,一般使用時間/頻率分析102,即濾波器排或轉換,以代表聲頻訊號107之參數110。此等參數要經量化和編碼104、熵寫碼105和位元流運算106;此等步驟均利用輸入聲頻訊號的心理聽覺分析101加以控制。第2圖表示相對應一般性知覺聲頻解碼器,具有位元流運算201、熵解碼202、位元分配203、解碼和去量化204、最後時間/頻率合成,由參數212、213發生時間界域訊號214。
第1和2圖說明知覺聲頻寫解碼器之例。雖然特殊實施可有某種程度的不同,但往往採用時間/頻率分析、及其逆向之時間/頻率合成。
茲聚焦於時間/頻率分析和合成,而中間編碼和解碼步驟則不贅述。
對時間/頻率分析102,在今日之聲頻寫解碼器使用許多不同的演算。例如MPEG聲頻寫解碼器標準,包含MPEG-1層I和Ⅱ寫解碼器,使用32帶擬似QMF(正交鏡濾波器)濾波器排,以及MPEG-1層Ⅲ(mp3),則採用混雜濾波器排,即32帶擬似QMF濾波器排後接MDCT(修改型DCT)濾波器排之梯級。MDCT濾波(從缺值18磁帶箱,為過渡降到6磁帶箱),分別導致576或192磁帶箱的頻譜分解。MPEG AAC寫解碼器及其衍生產品使用全帶MDCT措施,有1024磁帶箱的從缺值分解(過渡降至256磁帶箱)。聲頻幅往往在時間上重搭至某種程度,例如50%,界定所謂幅前置(100%重搭) frame_size。
結果,時間/頻率分析102的輸出和時間/頻率合成205的輸入間之界域(其中編碼器的輸出訊號116即為解碼器之輸入206),即指明為「頻率界域」或「參數界域」,不論專用聲頻寫碼格式為時間/頻率分析究係使用濾波器排或段轉換。
由於現有和新增的聲頻格式數量不斷增加,把聲頻內容從一位元流格式轉碼為另一格式之演算需要日增。第3圖表示對聲頻轉碼的措施,為目前典型上所用,因只涉及第1和2圖內業已敘述的可行標準模組。在原始格式內編碼之輸入位元流,解碼DEC_A成連續時間界域PCM訊號TD。獨立編碼器ENC_B即按照目標格式產生新的位元流。訊號處理段間之唯一界面,是時間界域聲頻訊號TD,即從解碼器通到編碼器。
雖然此項措施使用簡單,但有下列問題。第一,因為二段DEC_A、ENC_B不知彼此,時間/頻率分析程序會去同步化:一般而言,會有一系列的運算供解碼(去量化)和編碼(量化),導致訊號品質降等,所謂隨機誤差。第二,措施之計算複雜性高,故需大為降低。
若原始格式和目標格式有某種程度共同的一些側資訊,利用解碼器摘取,再用於編碼器,則可得更好的轉碼結果。第4a圖表示此措施之例,可用於例如如Dolby AC-3轉碼至BSAC(Bit Sliced Arithmetic Coding)格式(見Kyoung Ho Bang,Young Cheol Park和Dae Hee Youn(2006),〈為活動多媒體應用之聲頻轉碼演算〉,刊於“Proc.of ICASSP”,第3卷)。在此特例中,AC-3位元分配可再用來導衍和控制BSAC編碼器內之新位元分配403。除了由原始位元流再用側資訊SI外,時間/頻率合成和分析程序在時間上同步化。在此情況下,第4a圖的進步概念較前述轉碼計劃,減少計算複雜性,會導致目標訊號之更佳品質。
如果(且只有如果)原始和目標位元流的寫解碼器格式,在其時間/頻率分析界域一致,即分析和合成段完全互補(例如mp3位元流從指定轉碼至較低資料率),轉碼才可進一步簡化,如第4b圖所示:時間/頻率分析和合成程序可省略,故在參數界域PD內直接發生資料率修飾,例如把某些參數再加以量化。另外有益的是,從原始位元流再用側資訊,例如位元分配。
由上述可知顯然缺少在具有不同時間/頻率分析界域的編碼格式間轉碼之簡單方法和裝置。
本發明之一要旨是,提供此種方法和裝置,尤指供具有不同時間/頻率分析界域的聲頻訊號間方便而快速轉碼。
本發明使用從原始參數界域線性映射至目標參數界域,其中目標參數視原始參數而定,從二或以上之輸入幅。此舉可使不同時間/頻率分析界域間之轉碼複雜性低,並防止習用處理方式使訊號降解的問題。
已知習知轉碼措施的時間/頻率合成和隨後時間/頻率分析,可以線性運算表達,惟往往有時間變式。
按照本發明一要旨,聲頻訊號從第一或輸入界域(與時間界域對立)轉碼為第二或輸出參數界域之方法,包括步驟為,把輸入參數界域之參數映射到輸出參數界域之參數,其中至少一輸出參數線性因二或以上之輸入參數而定(即輸出參數為二或以上輸入參數之線性組合)。二或以上之輸入參數來自二或以上不同的輸入幅。
在一具體例中,映射或轉換描述該輸出參數和該二或以上輸入參數間之關係,有時間變式。惟對幅結構的輸入和/或輸出格式,係複數時間不變式關係之序列。此特別有益的情況是,輸入參數界域的時間/頻率分析和輸出參數界域的時間/頻率合成之幅前進(描述幅之時間上重搭)不同。
在一具體例中,時間變式映射周期性重複,即定期重複時間不變式映射。
在一具體例中,映射包括副步驟為,從不同的原始幅映射部份輸入向量,再為單一輸出幅相加或重疊。
在一具體例中,跨越相當於整數輸出幅的整數輸入幅,產生超幅,整數視輸入和輸出格式的幅長度和幅位移而定。一超幅相當於時間變式映射之一次或多次重複期間。
在一具體例中,時間變式關係之各時間不變式相位,是以線性運算表達,從輸入格式訊號的複數接續幅得到輸入,為輸出格式訊號之一幅產生輸出。因此,由此定期重複可得超幅之線性運算序列。
在一具體例中,時間變式映射是使用預先計算的轉換係數查表,實施為線性轉換序列。惟在另一具體例中,線性轉換是預界定的分析表達,例如功能,應用於輸入參數。
本發明之優點是,從一參數界域不通過連續時間界域訊號而直接線性轉換為另一參數界域所需之計算複雜性,比經由連續時間界域訊號的習知直率轉碼程序,大為降低。
另一優點是在轉碼品質和計算複雜性間之交換,可適應時間變化應用需要,甚至以頻率選擇方式。
又一優點是,經由單一線性轉換之直接轉碼,比經由時間界域訊號的習知轉碼計劃,在數值上有更好的調理。由於原始界域的特殊參數磁帶箱之影響,限於目標界域的小範圍參數磁帶箱,則量化和不準確數值運算(例如習知轉碼的固定點實施所通用)之廣佈效應,即減到最小。
本發明有益之具體例載於申請專利範圍附屬項、以下說明和附圖。
茲參照附圖說明本發明具體例如下。
第5圖表示在二格式間的參數界域內直接轉碼,二格式有不同的參數界域PDA ,PDB 。按照原始格式A的相鄰參數幅501數,例如mp3,已先利用原始格式的時間/頻率分析計劃,從PCM聲頻訊號衍生(圖上未示)。各幅m-1,m,m+1包括許多參數,因此可視為原始參數界域PDA 之參數向量。線性轉換矩陣TT 應用於輸入參數向量501,提供一輸出向量502,相當於輸出格式B的輸出參數界域PDB 內之一幅。
對單一輸出幅n而言,轉換或映射是時間不變式。不論轉換矩陣TT 是否同時應用於複數輸入幅,或對個別輸入幅應用分別之轉換矩陣(同時或依序),即將部份結果相加,二者情況所得矩陣TT 相同,蓋因轉換步驟為線性。
原則上,轉換映射TT 涵蓋習知處理510之全部副步驟,其中各參數向量PA (m),PA (m+1)...。乘以線性轉換矩陣(SA 代表按照原始格式之合成),轉換成相對應之時間界域節TDS 。在此例中,時間節有重搭,饋入重搭相加程序503,得解碼之連續時間界域TDC 聲頻訊號504。然後,於習知轉碼過程,按照目標格式B發生時間/頻率分析。連續之時間界域訊號504分解505成一系列之(通常)重搭節,其中重搭可與格式A採用之重搭不同,而節向量則乘以矩陣轉換成目標參數界域PDB (AB 代表按照格式B之分析(A))。由於目標格式B可應用與原始格式A不同的幅位移,故使用另一幅指數n。
上述和第5圖在涵括全部時間/頻率分析計劃的認識上具有概括性,在今日聲頻寫碼方面有實際關聯。矩陣,可準確說明任何時間/頻率合成或分析計劃,基於線性段轉換和線性饋送前進(FIR,有限脈衝反應)濾波器排。例如mp3寫解碼器的混雜濾波器排之梯級結構,可組合於矩陣內。亦涵括線性非玩美重構濾波器排或轉換。對IIR(無限脈衝反應)濾波器排,藉減去可忽略數值之有限脈衝,將無限脈衝反應加以四捨五入,即可配成充分正確的表達。
本發明轉碼概想開發在轉碼過程中所涉及時間/頻率合成和分析步驟,之線性,以及重搭相加和分節段503,505。時間/頻率合成、重搭相加503、分節505和時間/頻率分析之順序,可改為單一線性轉換TT ,故有益的是不必發生連續時間界域訊號504。
茲說明線性轉換TT 之若干性質如下。
轉換矩陣TT 可有正確衍生,但可能不平凡。除分析性衍生程序外,利用模擬和測量原始參數界域的各參數元件(例如頻譜磁帶箱),對目標參數界域內目標幅之線性貢獻,即有訓練矩陣之可能性。矩陣TT 可例如以分析性表達或查表加以代表。
若干接續性時間節以習知轉碼途徑重搭相加503的結果,線性轉換TT 一般不會一對一,而是許多對一的映射。意即原始界域至少有二,典型上為三或以上之幅,對目標界域之一幅有影響。反之,原始界域之各幅影響目標界域之一幅以上。
雖然界定參數界域A和B之時間/頻率分析和合成程序,假設為線性,然典型上為時間變式。所以,直接轉換TT 視原始界域的時間節對目標界域的時間節之時間界域同步化而定。易言之,修改表達A和B的幅間之計時差異,一般會產生另一直接轉換矩陣TT 。因此,如果原始格式的時間/頻率合成之幅位移,和目標格式的時間/頻率分析不同,則矩陣TT 為時間變式。MPEG AAC(1024樣本之幅前進)和mp3(576樣本之幅前進)間轉碼例,見第6圖所示。時間變式轉換包括在此情況下要採用的十六個時間不變式轉換矩陣TT (略掉視窗更換計劃)。第6圖表示AAC和mp3的頻率界域向量之序列。由於不同的幅前進,幅間的時間位移隨時間而異。分別在九個AAC幅和十六個mp3幅期間後,AAC和mp3幅間發生一致的時間位移。在此例中,此期間為超幅。在各超幅中,使用十六個預定轉換矩陣(例如表),從AAC界域轉碼入十六個mp3幅。為各超幅重複此轉換序列。因此,轉換(在超幅內)是時間變式。
一般而言,超幅內周期序列之轉換數,相當於目標格式內之幅數。例如為了從mp3轉碼至AAC,時間變式轉換包括九次時間不變式轉換,超幅9m,9m+1,...,9m+8內各幅有一次。在此情況下,幅間關係與第6圖所示相反,例如第二AAC幅9m+1視五個mp3幅16m,...,16m+4而定。然而,由於轉換之線性,亦可進行從一原始格式幅分別轉換至一目標格式幅,並將必要之結果向量相加,而得目標幅。對於本實施例,得40次轉換加每目標幅所需相加之序列。
「幅前進」一辭指接續時間/頻率分析幅之彼此位移。此係視接續幅的時間上重搭而定,並與一幅之時間期限不同。
若涉及時間/頻率分析之二程序,顯示相鄰參數磁帶箱之分開良好,而且若在相加時的頻譜解像度相似,則轉換矩陣TT 典型上粗疏,且有點斜。意即TT 的大部份等於零,在轉換中不需考慮。所以,藉矩陣TT 利用線性轉換加以轉碼,可預計在計算意義上,較習知轉碼方法經由連續時間界域訊號不複雜。
轉換矩陣之例見第9圖。灰級表示從mp3混雜濾波器排轉碼至全帶MDCT(二者均有長視窗)用的轉換矩陣TT 之係數對數幅度。舉例為三個接續mp3幅影響目標MDCT幅。暗區內係數指比亮區為高。在此例中,轉換係數的97.7%幅度,在-60 dB以下。對轉碼,此等係數可以省略,故以很低的計算費心即可實施矩陣乘法。
第10圖表示第9圖中央區之細部,以三次元條桿曲線圖代替灰級碼。由圖示41*41=1681係數,大部份在-60 dB以下(截在-80 dB),即可以忽略。理想情況是,只有沿線性區之很少係數,有相關位級值。在此分析衍生例中,以18個磁條箱的周期性距離橫越線性區之另外區,亦具有不可忽略之值,由mp3混雜濾波器排內的假化失真效應所造成:大量的假化組份仍然存在,即使在混雜mp3濾波器排內已應用假化校正。在全帶MDCT情況下,不存在此假化(aliasing)。
把頻率選擇性準確要件考慮進去,可進一步降低計算上的複雜性。例如,若mp3核心位元流具有低位元率,則一般不會將高頻磁帶箱加以編碼,在解碼器內可設定於零(即被遮蔽)。在此情況下,轉碼轉換TT 的高頻部份可以省略。一般而言,任何頻率範圍均可容易遮蔽。遮蔽亦可為時間變式和/或訊號依賴性,例如根據側資訊內所含之位元分配。此項容易而彈性之遮蔽,較經由連續時間界域訊號之習知轉碼為有利。
原則上,轉換矩陣TT 說明以綜合方式,對目標幅的各頻率磁帶箱轉換。由於轉換的線性,轉換矩陣可分解成副矩陣,有些亦可忽略(例如某些目標頻率磁帶箱不需要)。故選擇從全部轉換的切片或共用,為計算上實際所需。為此目的,例如可評估主導頻率或側資訊,諸如原始幅和/或目標幅之位元分配。
若所需轉碼準確性係頻率選擇性,則轉換矩陣TT 之利用可為時間變式。例如,在從一壓縮聲頻格式轉碼成另一時,轉碼準確性之頻率依賴性要件,可按原始或目標聲頻格式的位元分配為函數加以決定。例如,為了較低轉碼準確性所需之目標準確性磁帶箱(一項可能理由是,所分配位元之數量小),在計算轉碼轉換時,必須考量矩陣TT 的較少非零元素。因此,可進一步降低計算上之複雜性。
以所揭示之轉碼計劃,原始界域的各參數磁帶箱之影響,被拘限在目標界域內很有限的參數磁帶箱組。所以,所擬計劃之數值行為,其條件遠較經由時間界域訊號的習知轉碼為佳。在習知轉碼中,若干頻譜部份的強力訊號組份,會影響所轉碼參數界域內之全譜,乃因時間/頻率合成和分析程序的數值不準確之故。
本發明一具體例係關於從按照MPEG-1層Ⅲ(mp3)所採用混雜濾波器排之參數界域,轉碼為按照全帶MDCT或整數MDCT之目標參數界域,具有一致的幅前進和一致的頻率磁帶箱量。應用例是把聲頻PCM樣本混雜無損寫碼在嵌入式mp3位元流頂上。於此,使用所揭示快速轉碼計劃,從所解碼mp3磁條箱預計全帶整數MDCT磁條箱,惟轉碼會牽涉的不止是mp3磁條箱之現時幅。
第7圖表示各編碼器訊號流程。編碼器訊號流程之下部代表習用mp3編碼器,包含多相濾波器排和十選一701、分節和MDCT 702、快速傅立葉轉換(FFT)704、心理聲學分析705、位元分配和量化器703、側資訊編碼器706,和多工器707。在混雜無損編碼器的上方訊號途徑內,應用並式分節和全帶整數MDCT 709。對全帶MDCT的分節和控制,應用和mp3核心寫解碼器相同之適應性視窗更換計劃。全帶整數MDCT的頻譜解像度,亦按照mp3濾波器排之時間變化式頻譜解像度加以控制。為了二並式時間/頻率分析程序的簡約同步化,尤其是若利用轉碼轉換涉及一個mp3幅以上(典型上為三個或以上),在整數MDCT和相對應分節709之前,必須引進PCM樣本的延遲708。
全帶整數MDCT 709和隨後訊號處理段之目的,在使時間界域PCM訊號得以數學上無損編碼。所以,使用可逆式整數MDCT。此構想可媲美MPEG SLS(可標度為無損)聲頻寫解碼器內應用之原則,惟基於從全帶MDCT磁帶箱減去「去量化」,約略mp3頻率磁帶箱,不會導致低率無損寫碼所需訊號熵之充分降低。因而,在編碼器和解碼器內使用本發明所揭示轉碼計劃,從mp3時條箱決定更準確預計全帶MDCT磁條箱。職是之故,轉碼轉換711(經由矩陣TT ),在其係數經去量化(逆向量710)後,一般會顧及至少三個mp3幅。
由於mp3濾波器排701在長、短分析/合成視窗之間,應用訊號適應性更換,故轉換矩陣TT 為時間變式(在第7圖內未示)。對長視窗、短視窗及過渡相,應用不同的轉換。例如二或以上之相鄰轉換合併為一,或將一轉換分成二或以上,故每超幅之不同時間不變式轉換次數,可在連流內變化。
如上所述,利用頻率選擇性,例如省略轉碼轉換TT 高頻和/或低頻部份,可進一步減少計算上的複雜性。
第8圖描繪無損mp3解碼用之各解碼器。解碼器之轉碼和捨入805,與編碼器的轉碼和捨入711一致。逆化量化器710,803在編碼器和解碼器內也是一致。無損解碼程序802,與無損編碼程序713互補,而側資訊解碼器804與側資訊編碼器706互補。
另一具體例涵括不同聲頻格式間之快速轉碼,因此事關傳統上對「轉碼」一辭的理解,即從一壓縮格式的聲頻內容轉變為另一。一般而言,轉碼可以原始格式的任一幅開始。
第11圖表示所擬系統之方塊圖,應用在參數界域內之直接轉碼。與第4圖所示習知轉碼系統相較,本發明此具體例,是將解碼器DEC_A的時間/頻率合成和編碼器ENC_B的時間/頻率分析之序列,改為從原始參數界域PDA 直接轉碼TT 為目標參數界域PDB 。此措施之一優點是,計算複雜性低,因此,效率較高,而較佳之數值行為意指訊號失真較少。此舉尤其能以常用於轉碼之數學運算有限準確性,保持固定點實施。所以,本發明能夠從原始聲頻格式快速轉碼為目標聲頻格式,而結果之品質較習知轉碼計劃為佳。再者,使用側資訊SI’,與習知轉碼系統中之側資訊類似。
所揭示演算之用途,不限於一寫碼格式完全轉變為另一格式,但亦可用做其他聲頻相關演算之建築段,一如上述若干具體例所示。
本發明典型舉例用途,是預計不同聲頻格式間無損寫碼、高品質轉碼用之時間/頻率參數。
101...心理聽覺分析
102...時間/頻率分析
103...位元分配
104...量化和編碼
105...熵寫碼
106...位元流運算
107...聲頻訊號
110...參數
201...位元流運算
202...熵寫碼
203...位元分配
204...解碼和去量化
205...時間/頻率合成
212...參數
213...參數
214...時間界域訊號
403...新位元分配
501...輸入參數向量
502...輸出向量
503...重搭相加程序
504...時間界域訊號
505...分節
510...處理
701...多相濾波器排和十選一
702...分節和MDCT
703...位元分配和量化器
704...快速傅立葉轉換
705...心理聲學分析
706...側資訊編碼器
707...多工器
708...延遲
709...分節和整數MDCT
710...逆向量化器
711...轉碼和捨入
713...無損編碼程序
801...解多工器
802...無損解碼程序
803...逆向量化器
804...解碼器側資訊
805...轉碼和捨入
807...逆向整數MDCT
TD...時間界域聲頻訊號
DEC_A...解碼器
ENC_B...編碼器
PDA ...第一參數界域
PDB ...第二參數界域
SI,SI’...側資訊
TT ,TSA ...線性轉換矩陣
第1圖為通性知覺聲頻編碼器之結構;第2圖為通性知覺聲頻解碼器之結構;第3圖表示習知率直轉碼;第4a圖為習知再用位元分配之轉碼;第4b圖為習知一致聲頻格式間之轉碼;第5圖為不同參數界域間之直接轉碼;第6圖為具有不同幅前進的不同時間/頻率界域間之轉碼;第7圖為混雜mp3加無損延伸聲頻格式用之編碼器;第8圖為混雜mp3加無損延伸聲頻格式用之解碼器;第9圖表示轉換矩陣例之係數;第10圖表示轉換矩陣例之細部;第11圖為參數界域內不同聲頻格式間之轉碼器結構。
105...熵寫碼
106...位元流運算
201...位元流運算
202...熵解碼
Dec_A...解碼器
Enc_B...編碼器
PDA ...第一參數界域
PDB ...第二參數界域
Sl’...側資訊
TT ...線性轉換矩陣

Claims (28)

  1. 一種加幅聲頻訊號從第一參數界域(PDA )轉碼至第二參數界域(PDB )之方法,其中加幅聲頻訊號是代表時間界域聲頻訊號之參數界域,且其中第一參數界域(PDA )和第二參數界域(PDB )係由時間/頻率分析所得,並適於輸入至時間/頻率合成,此方法包括步驟為:-把第一參數界域(PDA )之二或以上參數,線性轉換(TT )為第二參數界域(PDB )之至少一參數,不產生該時間界域聲頻訊號,其中第一參數界域之二或以上參數來自第一參數界域內聲頻訊號之不同幅,係利用時間/頻率轉換而得之頻率組份者。
  2. 如申請專利範圍第1項之方法,其中該二或以上輸入參數線性轉換為該至少一輸出參數之該步驟,係時間變式者。
  3. 如申請專利範圍第2項之方法,其中時間變式線性轉換,係周期性重複複數時間不變式線性轉換者。
  4. 如申請專利範圍第2或3項之方法,其中第二參數界域(PDB )的全數參數,係由第一參數界域(PDA )的線性轉換參數所得者。
  5. 如申請專利範圍第3項之方法,其中周期性重複之一周期涵括第一參數界域(PDA )的整數幅,相當於第二參數界域(PDB )之不同整數幅者。
  6. 如申請專利範圍第1或2項之方法,其中第一和第二參數界域係基於時間/頻率分析,使用時間性分析視窗,而第二參數界域(PDB )之時間/頻率分析,使用長分析視窗和短分析視窗,又其中該線性轉換(TT )對長分析視窗和短分析視窗有所不同者。
  7. 如申請專利範圍第1至3項之一項方法,其中該線性轉換(TT )步驟包括步驟為:-把輸入向量從不同輸入幅映射至輸出向量;以及 -把輸出向量重疊,以發生輸出幅者。
  8. 如申請專利範圍第1至3項之一項方法,其中第一參數界域的二或以上參數之線性轉換步驟,包括使用持有轉換係數之查表者。
  9. 如申請專利範圍第1至3項之一項方法,其中第一參數界域的二或以上參數之線性轉換步驟,包括使用預界定分析性表達者。
  10. 如申請專利範圍第1至3項之一項方法,其中第一參數界域(PDA )之聲頻幅(501)具有與第二參數界域(PDB )聲頻幅不同之幅前進,其中幅前進描述幅之時間性重搭者。
  11. 如申請專利範圍第1至3項之一項方法,其中該第一和第二參數界域之該不同參數,係參照時間/頻率分析和時間/頻率合成之參數,而第一和第二參數界域係不同之時間/頻率分析和/或不同之時間/頻率合成者。
  12. 如申請專利範圍第1至3項之一項方法,其中該線性轉換描述按照第一參數界域(PDA )之至少時間/頻率合成(),重搭相加(503)分節,以及按照第二參數界域(PDB )之時間/頻率分析()者。
  13. 如申請專利範圍第12項之方法,其中時間/頻率合成()和/或分析()相當於線性段轉換或線性向前饋送之濾波器排者。
  14. 如申請專利範圍第1至3項之一項方法,其中第一參數界域的各幅(501)參數影響第二參數界域一幅(502)以上,並代表聲頻訊號之波型者。
  15. 如申請專利範圍第1至3項之一項方法,其中該轉換(TT )包括省略聲頻訊號之特定頻率部份者。
  16. 如申請專利範圍第15項之方法,其中該項省略聲頻訊號之特定頻率部份,係時間變式,且視第一參數界域內聲頻訊號所用位元分配而定者。
  17. 如申請專利範圍第1至3項之一項方法,其中該第一或第二濾波器排界域,為MPEG-AAC、MDCT或MPEG-1層III所採用混合濾波器排之一者。
  18. 一種加幅聲頻訊號從第一參數界域(PDA )轉碼至第二參數界域(PDB )用之裝置,其中加幅聲頻訊號是代表時間界域聲頻訊號之參數界域,且其中第一參數界域(PDA )和第二參數界域(PDB )係由時間/頻率分析所得,並適於輸入至時間/頻率合成,此裝置包括:-利用第一參數界域(PDA )的二或以上參數之線性轉換(TT ),以計算第二參數界域的至少一參數用之機構,其中第一參數界域之二或以上參數,來自第一參數界域內聲頻訊號之不同幅,且係利用時間/頻率轉換而得之頻率組份者。
  19. 如申請專利範圍第18項之裝置,其中該二或以上輸入參數線性轉換為至少一輸出參數之該步驟,係時間變式者。
  20. 如申請專利範圍第18或19項之裝置,又包括一或以上之查表機構,以儲存和檢復轉換係數者。
  21. 如申請專利範圍第18或19項之裝置,又包括評估機構,以評估預界定之分析性表達者。
  22. 如申請專利範圍第18或19項之裝置,其中第一參數界域(PDA )之聲頻幅(501)具有與第二參數界域(PDB )聲頻幅不同之幅前進,其中幅前進描述幅之時間性重搭者。
  23. 如申請專利範圍第18或19項之裝置,其中該第一和第二參數界域之該不同參數,係參照時間/頻率分析和時間/頻率合成之參數,而第一和第二參數界域係不同之時間/頻率分析和/或不同之時間/頻率合成者。
  24. 如申請專利範圍第18或19項之裝置,其中該線性轉換描述按照第一參數界域(PDA )之至少時間/頻率合成(),重搭相加(503)分節,以及按照第二參數界域 (PDB )之時間/頻率分析()者。
  25. 如申請專利範圍第18或19項之裝置,其中第一參數界域的各幅(501)參數影響第二參數界域一幅(502)以上,並代表聲頻訊號之波型者。
  26. 如申請專利範圍第18或19項之裝置,其中該轉換(TT )包括省略聲頻訊號之特定頻率部份者。
  27. 如申請專利範圍第26項之裝置,其中該項省略聲頻訊號之特定頻率部份,係時間變式,且視第一參數界域內聲頻訊號所用位元分配而定者。
  28. 如申請專利範圍第18或19項之裝置,其中該第一參數界域或該第二參數界域為MPEG-AAC、MDCT、整數MDCT或MPEG-1層III所採用混合濾波器排之一者。
TW096131326A 2006-09-20 2007-08-24 加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置 TWI423251B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP06120969A EP1903559A1 (en) 2006-09-20 2006-09-20 Method and device for transcoding audio signals

Publications (2)

Publication Number Publication Date
TW200816167A TW200816167A (en) 2008-04-01
TWI423251B true TWI423251B (zh) 2014-01-11

Family

ID=37605771

Family Applications (1)

Application Number Title Priority Date Filing Date
TW096131326A TWI423251B (zh) 2006-09-20 2007-08-24 加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置

Country Status (10)

Country Link
US (1) US9093065B2 (zh)
EP (2) EP1903559A1 (zh)
JP (1) JP5324450B2 (zh)
KR (1) KR101341317B1 (zh)
CN (1) CN101563726A (zh)
BR (1) BRPI0718465A2 (zh)
CA (1) CA2662910C (zh)
TW (1) TWI423251B (zh)
WO (1) WO2008034723A1 (zh)
ZA (1) ZA200901367B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793738B2 (en) 1994-05-04 2014-07-29 Starsight Telecast Incorporated Television system with downloadable features
CH705207B1 (de) 2002-06-19 2012-11-30 Prospective Concepts Ag Pneumatisches Bauelement mit Knotenelementen.
WO2007071100A1 (de) 2005-12-23 2007-06-28 Prospective Concepts Ag Pneumatisches bauelement, und daraus erzeugtes dach
CH704442B1 (de) 2005-12-23 2012-08-15 Prospective Concepts Ag Pneumatisches Bauelement.
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
EP2099027A1 (en) * 2008-03-05 2009-09-09 Deutsche Thomson OHG Method and apparatus for transforming between different filter bank domains
CN101989429B (zh) 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
EP2306456A1 (en) * 2009-09-04 2011-04-06 Thomson Licensing Method for decoding an audio signal that has a base layer and an enhancement layer
US8509329B2 (en) * 2009-11-06 2013-08-13 Samsung Electronics Co., Ltd. Data receiving apparatus for receiving data frame using constellation mapping scheme and data transmission apparatus for transmitting the date frame
CN104781878B (zh) * 2012-11-07 2018-03-02 杜比国际公司 音频编码器和方法、音频转码器和方法、以及转换方法
CA2909020C (en) * 2013-04-18 2018-07-10 Mitsubishi Electric Corporation Demultiplexing apparatus, multiplexing apparatus, and relay apparatus
CN111292757A (zh) 2013-09-12 2020-06-16 杜比国际公司 基于qmf的处理数据的时间对齐
TWI557724B (zh) 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
CN110870006B (zh) 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器
WO2022179406A1 (zh) * 2021-02-26 2022-09-01 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质
CN113689864B (zh) * 2021-10-27 2022-01-18 北京百瑞互联技术有限公司 一种音频数据处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260009B1 (en) * 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US20040002855A1 (en) * 2002-03-12 2004-01-01 Dilithium Networks, Inc. Method for adaptive codebook pitch-lag computation in audio transcoders
TW573293B (en) * 2002-09-13 2004-01-21 Univ Nat Central Nonlinear operation method suitable for audio encoding/decoding and an applied hardware thereof
WO2005078707A1 (en) * 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
WO2006024977A1 (en) * 2004-08-31 2006-03-09 Koninklijke Philips Electronics N.V. Method and device for transcoding
TW200707846A (en) * 2005-08-12 2007-02-16 Advanced Connectek Inc Loop antenna with capacitive structure

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4441125B2 (ja) 1999-03-25 2010-03-31 サゲム エス エー 入力信号内の音声信号を検出するための音声検出装置
WO2003058407A2 (en) * 2002-01-08 2003-07-17 Dilithium Networks Pty Limited A transcoding scheme between celp-based speech codes
JP4263412B2 (ja) 2002-01-29 2009-05-13 富士通株式会社 音声符号変換方法
DE10217297A1 (de) 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
US7363230B2 (en) * 2002-08-01 2008-04-22 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
CN100578616C (zh) * 2003-04-08 2010-01-06 日本电气株式会社 代码转换方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260009B1 (en) * 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US20040002855A1 (en) * 2002-03-12 2004-01-01 Dilithium Networks, Inc. Method for adaptive codebook pitch-lag computation in audio transcoders
TW573293B (en) * 2002-09-13 2004-01-21 Univ Nat Central Nonlinear operation method suitable for audio encoding/decoding and an applied hardware thereof
WO2005078707A1 (en) * 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
WO2006024977A1 (en) * 2004-08-31 2006-03-09 Koninklijke Philips Electronics N.V. Method and device for transcoding
TW200707846A (en) * 2005-08-12 2007-02-16 Advanced Connectek Inc Loop antenna with capacitive structure

Also Published As

Publication number Publication date
EP1903559A1 (en) 2008-03-26
JP5324450B2 (ja) 2013-10-23
US20090240507A1 (en) 2009-09-24
KR20090055579A (ko) 2009-06-02
ZA200901367B (en) 2010-05-26
JP2010504544A (ja) 2010-02-12
EP2064700A1 (en) 2009-06-03
KR101341317B1 (ko) 2013-12-12
EP2064700B1 (en) 2012-09-05
CA2662910C (en) 2015-12-15
US9093065B2 (en) 2015-07-28
CN101563726A (zh) 2009-10-21
BRPI0718465A2 (pt) 2013-12-03
CA2662910A1 (en) 2008-03-27
TW200816167A (en) 2008-04-01
WO2008034723A1 (en) 2008-03-27

Similar Documents

Publication Publication Date Title
TWI423251B (zh) 加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
JP5096468B2 (ja) サイド情報なしの時間的ノイズエンベロープの自由な整形
CN105679327B (zh) 用于对音频信号进行编码和解码的方法及设备
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
KR101238239B1 (ko) 인코더
US8386271B2 (en) Lossless and near lossless scalable audio codec
US8447591B2 (en) Factorization of overlapping tranforms into two block transforms
CA2887228C (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
US20080312758A1 (en) Coding of sparse digital media spectral data
EP2372706B1 (en) Method and apparatus for encoding excitation patterns from which the masking levels for an audio signal encoding are determined
US20100250260A1 (en) Encoder
Thiagarajan et al. Analysis of the MPEG-1 Layer III (MP3) algorithm using MATLAB
Edler et al. A time-warped MDCT approach to speech transform coding

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees