TWI515720B - 壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體 - Google Patents

壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體 Download PDF

Info

Publication number
TWI515720B
TWI515720B TW098122012A TW98122012A TWI515720B TW I515720 B TWI515720 B TW I515720B TW 098122012 A TW098122012 A TW 098122012A TW 98122012 A TW98122012 A TW 98122012A TW I515720 B TWI515720 B TW I515720B
Authority
TW
Taiwan
Prior art keywords
matrix
scale factor
audio
sub
message
Prior art date
Application number
TW098122012A
Other languages
English (en)
Other versions
TW201007699A (en
Inventor
迪米崔V 修穆克
Original Assignee
Dts股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dts股份有限公司 filed Critical Dts股份有限公司
Publication of TW201007699A publication Critical patent/TW201007699A/zh
Application granted granted Critical
Publication of TWI515720B publication Critical patent/TWI515720B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方 法、及機器可讀儲存媒體 發明領域
大致上,本發明係關於已壓縮數位音訊信號或已編碼數位音訊信號領域,特定言之,係關於使用比例因子或浮點表示型態來表示音訊信號之音訊壓縮。
發明背景
已知多種數位信號之編碼方法及解碼方法,典型地採用該等方法來減少傳輸及儲存之位元需求,或採用來提高音訊回放之知覺品質(受位元率限制)。例如,諸如DTS同調聲學(參考美國專利5974380)及杜比(Dolby)AC3常見於商業上使用,如同MPEG-2壓縮及解壓縮之多種變化法也常供商業使用。
於任一種數位音訊表示型態中,信號經週期性取樣,然後該等樣本系列藉某種方法量化來表示一音訊信號。於多種編碼解碼器(編碼器/解碼器系統)中,信號係藉一系列組織為時間序列之已量化樣本表示(時域表示型態)。於其它編碼解碼器中,樣本可藉多種數學方法中之任一種以數學方式變換來獲得「頻域」表示型態,也稱作為頻譜表示型態或變換表示型態。此種編碼解碼器俗稱為「變換編碼解碼器」。
已編碼表示型態係使用時域樣本、已編碼頻譜值或若干其它已變換資料系列,經常發現優異地自適應樣本之數值表示型態來更有效地使用可用的位元。已知經由使用比例因子來表示資料。各個資料值係以一比例因子及一數量參數表示,據了解該數量參數乘以該比例因子可復原該原先資料值。此種方法偶爾稱作為「定標表示型態」,偶爾特別稱作為區塊定標表示型態,或偶爾稱作為「浮點」表示型態。顯然浮點表示型態為定標表示型態之特例,其中數目係以尾數與指數之組合表示。尾數係與數量參數相對應;而指數係對應於比例因子。典型地,比例因子位元可以若干非線性方案表示,諸如指數映射或對數映射。如此,比例因子領域之各個量化步驟可表示以10為底之對數方案(舉例)中之某個分貝數目。
雖然比例因子的使用常見減少用於傳輸之位元率需求,但於「正向自適應性」編碼解碼器中,要求以某種方式來傳輸比例因子。於較低位元率,比例因子的傳輸要求總位元率之一大部分。如此期望減少傳輸比例因子所需的位元數目。此項問題之最常見先前解決之道係傳輸與若干較大多數(區塊)樣本相關之一單一比例因子。本技術之一種變化法係稱作為「區塊浮點」。本方法獲得最佳量化與需要減少傳輸比例因子所需位元間之折衷。該技術的成功大為仰賴信號之時間及頻率表現及信號變遷所帶來的挑戰。
發明概要
本發明包括一種編碼方法、一種解碼方法及一種機器可讀取儲存媒體。
該編碼方法提供一種於一音訊系統中壓縮表示一聲音之一數位化音訊信號之方法,其中一樣本係以比例因子與關聯數量之乘積表示。該方法包括下列步驟:接收表示一聲音之一數位信號;將樣本組織成至少一個音訊訊框,該訊框包含表示一時間間隔之多數時間上循序樣本;對各個訊框,將該等多數時間上循序樣本處理成多數子頻帶信號,各個子頻帶信號表示一個別子頻帶頻率範圍,且包含於該子頻帶頻率範圍內部之音訊樣本之一時間序列;將該子頻帶信號轉換成一種表示該已濾波之音訊樣本之格式,呈a)一比例因子,於比例因子欄位表示與b)一數量欄位,於一數量欄位表示之乘積;將該子頻帶信號之比例因子欄位組織成二維,至少一個「訊息磚」(tile)係與各個訊框相對應;以二維正交變換處理該至少一個「訊息磚」來對各該「訊息磚」產生一個別比例因子係數矩陣(SCM);壓縮各該SCM來產生一已壓縮係數矩陣;及將該已壓縮係數矩陣封包成用於傳輸之一資料格式。
該解碼方法包含下列步驟:將一所接收之資料封包拆封包來分離已編碼比例因子資料及已編碼數量資料;將該已編碼比例因子資料解壓縮來產生多數係數矩陣;藉二維反相正交變換將該等係數矩陣各自變換來獲得多數相對應之比例因子子矩陣;以與已知編碼器所使用之鋪「訊息磚」樣式相對應之一預定「訊息磚」樣式,經由串級連結該等比例因子子矩陣,而將該等比例因子子矩陣組裝成一較大的訊框矩陣;及再量化該比例因子矩陣而獲得一已壓縮已 再量化之比例因子矩陣。
該機器可讀取儲存媒體係適合用於儲存已編碼音訊資訊,其中各樣本係以一比例因子與一相對應數量之乘積表示。該媒體具有一已編碼比例因子資料欄位,其中至少一個比例因子之矩陣係藉二維正交變換編碼成一比例因子係數矩陣;及一數量欄位包括已編碼之資料量。
較佳實施例之詳細說明
將於「子頻帶編碼解碼器」之上下文說明本發明,換言之為以頻率及以時間將音訊樣本組織至某種程度之一種編碼/解碼系統。特別,後文舉例說明二維比例因子壓縮用於編碼解碼器之上下文,其使用數位濾波器組將一寬帶音訊信號分離成多個子頻帶信號,而該等子頻帶信號等分而獲得經臨界取樣之子頻帶信號。本發明並非限於此種上下文。反而該技術也係關於任何「變換編碼解碼器」,用於此項目的可視為子頻帶編碼解碼器之特例(特別使用數學變換來將一樣本時間串列組織成一頻域表示型態)。如此後文說明之技術可自適應於離散餘弦變換編碼解碼器、修改型離散餘弦變換編碼解碼器、傅立葉變換編碼解碼器、子波變換編碼解碼器、或任何其它變換編碼解碼器。於時域導向編碼解碼器中,該等技術可應用於子頻帶編碼解碼器,其使用數位濾波來將一信號分離成多個經臨界取樣之子頻帶信號(例如DTS 5.1環繞聲,如美國專利5,974,380及它處所述)。
須瞭解本發明方法及裝置具有編碼及解碼二面相,將就於傳輸系統之一般功能作說明:編碼器、傳輸頻道、及互補解碼器。傳輸頻道可包含或包括一資料儲存媒體,或可為電子頻道、光學頻道或任何其它傳輸頻道(該儲存媒體可視為特例)。傳輸頻道可包括開放式或封閉式網路、廣播、或任何其它網路拓樸學。
編碼器及解碼器將於此處分開說明但彼此互補。
第1圖顯示根據本發明之編碼系統之高階一般性圖解。編碼器之特定新穎實施例之進一步細節就第5-6圖顯示如下。
至少一個頻道之數位音訊信號係提供於輸入端102。用於本發明之目的,發明人假設數位音訊信號表示一種有形物理現象,特別為聲音,其已經被變換成電子信號,藉類比/數位變換而變換成一數位格式且適當經前處理。典型地,如技藝界已知,類比濾波、數位濾波、及其它前處理器可應用來減少頻疊、飽和、或其它信號處理誤差。音訊信號可藉習知線性法如PCM編碼表示。輸入信號藉多分接多頻帶分析濾波器組110濾波,該濾波器組適合為互補正交鏡面濾波器組。另外,可使用假正交鏡面濾波器組(PQMF)諸如多相濾波器組。濾波器組110產生多數子頻帶信號輸出信號112。該圖中只顯示少數此種輸出信號,但須瞭解典型將採用大量例如32個或64個此種子頻帶輸出信號。作為濾波功能之一部分,濾波器組110也可於各個子頻帶中臨界等分該等子頻帶信號,特別係將各個子頻帶信號等分成為較少數目樣本/秒,只足夠完全表示於各子頻帶之該信號(「臨界取樣」)。此種技術為技藝界所已知且說明於Bosi,M.及Goldberg,R.E.,數位音訊編碼及標準介紹(Kluwer,日期未知);或Vaidyanathan,多速率系統及濾波器組(Prentice Hall,1993)(舉例)。
藉110濾波後,多數子頻帶信號112(包含於各子頻帶之循序樣本)藉模組114變換成已定規之表示型態。換言之,各個樣本被變換成包含一比例因子(於比例因子位元編碼)及一數量參數(於資料位元儲存)之表示型態。比例因子典型為以非線性量化,例如以分貝表示,進一步例如藉霍夫曼(Huffman)編碼而編碼。須瞭解樣本值係等於比例因子乘以數量參數,但限制條件為比例因子首先解碼成線性表示型態。一種常見方案中,樣本可變換成臨時浮點形式包含一指數及一尾數,各自係於先前指定的位元欄位。
另外,熟諳技藝人士須瞭解輸入信號102可於浮點格式提供,但限制條件為分析濾波器組110係採用浮點處理。
模組114基於臨時表示型態方案,指定比例因子及資料參數,例如一種方案考慮頻率之感官知覺效應,諸如主觀遮蔽功能。另外,可使用位元分配方案,其尋求依據位元率限制最佳化某個準確度測量值(諸如最小平方誤差最小值「MMSE」);或該方案將尋求依據對誤差測量值之預定限制設定一位元率。初期比例因子指定只是初步(換言之為臨時),後來可於該方法中修改。分派的比例因子係以基於非線性映射之對應關係分派,諸如分貝或其它對數比例。資料參數(尾數)可根據線性映射或非線性映射分派。
於變換成比例因子/數量表示型態後,藉編碼模組116進一步編碼多數子頻帶信號。資料可藉多種方法中之任一種編碼,包括意圖藉消除熵來減少位元需求之方法之彙接組合。可使用損失性方法或無損失性方法,但預期損失性方法將最有效至該方法可探討人類聽覺之已知感官知覺特性及極限。資料參數之編碼屬於本發明之範圍,主要係有關比例因子資料之壓縮(比例因子資料係以逐一樣本為基準而關聯資料參數)。
其次於處理模組120,於各個子頻帶之臨時比例因子可集結成訊框,特定言之,基於於二維:時間及頻率之循序關聯,子頻帶樣本之一「訊框」係以二維定義。配置成一串列矩陣之特定方法於後文將就附圖討論。雖然第1圖顯示四條信號徑路,對應於四塊「訊息磚」,但也可採用其它數目的「訊息磚」或於若干實施例可只採用單一塊「訊息磚」。
其次,於比例因子壓縮模組122,臨時比例因子較佳集結成為多數矩陣或「訊息磚」,其尺寸係小於一訊框的尺寸,多數「訊息磚」足夠至少表示該訊框。然後比例因子使用二維變換124,較佳藉二維離散餘弦變換(DCT)修改(容後詳述)及壓縮。本操作產生表示一訊框比例因子之一修改型比例因子矩陣。然後經DCT變換之比例因子矩陣(稱作為比例因子係數矩陣)進一步經處理及編碼(於方塊126)來移除熵。細節討論如下。發現於DCT變換後比例因子係數矩陣可顯著壓縮。然後儲存該已壓縮之比例因子矩陣用於傳輸(模組128)。
為了準備用於傳輸之資料,編碼器必須解碼該已壓縮之比例因子矩陣(藉解碼器129)來重建一已重建之比例因子矩陣(可與原先「臨時的」比例因子改變至某種程度)。使用該已重建的比例因子矩陣,其次編碼器再量化原先子頻帶樣本(再量化模組130)。最後,已壓縮之比例因子矩陣(或正確言之,可解碼來重建此種矩陣之一大為壓縮之碼)乘(藉乘法器132)以已壓縮之資料參數變成某種資料格式或「封包」隨後用於傳輸。另外,藉本發明準備之資料格式可儲存於一機器可讀取媒體上。換言之用於本案目的,資料儲存及後來資料之擷取可視為「傳輸」之一個特例。
除了此處列舉之操縱步驟及壓縮步驟之外,須瞭解通常存在有編碼之其它「層」。已壓縮之音訊封包可視需要藉傳輸媒體進一步操縱,可能需要IP協定、定址位元、同位位元、CRC位元、或其它改變來配合一資料傳輸系統之網路及實體層。此等面相並非本發明之主旨,但為熟諳技藝人士已知。
於資料傳輸系統之接收端,資料封包係藉接收器200接收,藉解多工器202解多工(換言之,資料欄位由其已多工化格式拆封包)。已編碼比例因子藉比例因子解碼器204,經由逆轉該比例因子矩陣之編碼過程而被解碼來重建一已重建的比例因子矩陣。該等步驟將就第8圖說明如下。音訊數量參數也藉與用來編碼該等數量參數之方法互補之方法,藉一數量欄位解碼器206解碼。已重建的比例因子及數量參數最終結合各樣本重新組裝(重建已定標資料)。最後,已定標資料藉乘法(於方塊208)解碼或展開來獲得對各音訊信號表示已解碼值之定點或整數音訊資料。208之輸出為表示音訊信號之一串列循序資料。(數位)輸出信號210可藉D/A變換器變換成音訊信號,諸如電壓或電流,其又可用來驅動揚聲器或耳機,藉此重建一接近複本的聲音。
須瞭解雖然只敘述一個音訊頻道,但本發明技術可用於編碼多數音訊頻道,於二頻道立體聲配置或更多個頻道,諸如於多種「環繞」音訊配置中之一者。選擇性地,可藉解碼器探勘頻道間相關性來改良於一多頻道實施例中之壓縮。
前述(且特別為後述)編碼器及解碼器中之任一者或二者可藉有足夠隨機存取記憶體及資料儲存能力來與若干資料傳輸系統或儲存系統通訊之經適當規劃的微處理器具體實施。例如可採用通用微處理器,諸如得自多個半導體製造商之ARM 11處理器。另外,可使用更加特化的DSP處理器晶片,諸如得自類比裝置公司(Analog Devices)(ADI)之DSP系列,大為協助多組FIR數位濾波器(用於子頻帶濾波器組)或變換操作(DCT等)之程式規劃。較佳採用多處理器架構。
其次將說明特定新穎方法之進一步細節,強調壓縮比例因子之方法,此方法為本發明之焦點所在。由前文概略說明,瞭解數量參數(Q)偶爾也稱作為「尾數」欄位須與比例因子作一對一結合適當處理及壓縮,經常性保有下述關係,於比例因子/數量表示型態中,藉比例因子SF與數量(Q)之欄位乘積可緊密估算出音訊數據。後文細節說明更特別聚焦於本發明之比例因子的壓縮。該說明係以子頻帶編碼解碼器上下文作說明,採用於一時域取樣樣本操作之多頻帶FIR子頻帶濾波器來獲得經臨界取樣之子頻帶信號。該技術可自適應地僅略為修改即用於變換編碼解碼器,對熟諳技藝人士將顯然自明。
經由參考第3圖所示之二維資料結構或矩陣之視覺化可大為協助該方法之進一步說明。格子240表示N x M維度之比例因子矩陣,此處N為所表示之子頻帶數目,而M為各子頻帶中之時間上循序樣本數目,考慮等於一音訊信號訊框之時間跨距。確切維度(N及M)並無特殊限制:所列舉的特定值只為方便解說。僅供舉例說明,考慮一音訊「訊框」包含N*M時間序列等於1024個連續PCM表示之樣本。經由將此序列通過子頻帶濾波器組,可被解壓縮成N個子頻帶。於典型編碼解碼器中,N適當選用為32。則各個子頻帶典型藉32之因子等分(「臨界取樣」)而未遺失資訊(參考前文Bosi進一步說明)。於該特例情況下,各個子頻帶將獲得(對單一音訊訊框)1024除以32等於32循序樣本。此種「訊框」排列可藉32 x 32樣本矩陣表示。用於本案目的,只須考慮各個樣本之比例因子組分。如此,比例因子「訊框」係以N x M比例因子矩陣表示。更一般情況下,無需子頻帶全部皆有相等頻率跨距;也無需各個經臨界取樣子頻帶之時間解析度為相同,只要可完全捕捉時間上及空間上之資訊即可。如此,第3圖顯示有46(不等)子頻帶之一訊框;大部分子頻帶具有128個時間上循序樣本。低頻子頻帶244經濾波且經等分因此每個訊框只有16個時間上循序樣本(比每個訊框有128個樣本之頻帶246更窄的帶寬)。
容易瞭解第3圖完全以二維矩陣形式表示N x M音訊比例因子之訊框。於本發明之較佳實施例中,矩陣240分割成多個「訊息磚」250a、250b等。「訊息磚」為較小尺寸之矩陣,其可以二維(時間及頻率)串級連結而完全組成該矩陣240。特別,用於本發明之目的,一個「訊息磚」為尺寸J x K之矩陣,此處J及K分別係小於N及M,其中各個J x K「訊息磚」係由循序比例因子範圍所組成,保有來自於矩陣240之頻率/時間排序順序。換言之,經由分割矩陣而由矩陣240獲得「訊息磚」;矩陣240又可以預定樣式以二維藉串級連結子矩陣(「訊息磚」)來組成。有關分割及子矩陣之討論參考The Penguin數學詞典,John Daintith及R.D. Nelson編輯(1989年)。
雖然跨據一音訊訊框矩陣之單一「訊息磚」可根據本發明壓縮,但更大型矩陣240分解成為多個小型「訊息磚」於本發明方法之特別新穎實施例中為佳。如此,於本發明之若干變化例中,音訊訊框矩陣240藉分割分解成多個子矩陣。於第3圖所示實例中,使用各種尺寸之「訊息磚」。特別,實例中之最低16個子頻帶係以16 x 4個「訊息磚」(頻率,時間)表示。於遞增頻率中之其次兩個子頻帶係分割為3 x 16;更高頻子頻帶分割成8 x 16子矩陣。發現所示維度可用來表示具有音訊帶寬於中信度至高信度音樂信號之尋常範圍(至多約20Khz帶寬)之音訊信號。可採用其它樣式之「鋪訊息磚」。
第4圖為方塊圖表示根據本發明之編碼器之更特定實施例細節。於節點302接收一串列數位音訊信號作為輸入信號。以一序列有序的PCM音訊樣本為佳。典型資料率預期涵蓋於32Khz至48Khz取樣率區(具有由8千位元/秒至320千位元/秒之位元率)。更高位元率也可行,但於此等相對低的樣本率,本發明提供最顯著優點,原因在於於低位元率,比例因子組成總資料之一大部分。
步驟303,選擇性「刻痕移除」步驟係含括於本發明之若干特別新穎變化例,如後文就第10圖所述。較佳含括本步驟來讓比例因子訊框矩陣平順化且準備用於隨後步驟更有效率的壓縮。次一方法步驟304係將比例因子解壓縮成為多塊「訊息磚」,該等「訊息磚」為具有尺寸小於整個頻率/時間音訊訊框之尺寸之矩陣,且該等「訊息磚」完整,足夠藉有序的串級連結來重建整個二維音訊訊框。顯然可使用多種不同鋪「訊息磚」樣式。第3圖所示實例僅為其中一個實例,而非意圖限制本發明之範圍。
其次於步驟306,對各個「訊息磚」,本發明藉正交函數變換處理比例因子,最佳係藉二維離散餘弦變換(後文簡稱為「DCT」)處理。例如可使用於Rao及Hwang,影像、視訊及音訊編碼技術與標準,第66頁(Prentice Hall,1996)所示之二維DCT(本上下文全然與參考文獻所示不同)。可取代DCT之不同規度化而未悖離本發明。各個「訊息磚」之結果為J x K矩陣,此處稱作為比例因子係數矩陣(後文簡稱為「SCM」)。注意本步驟係與DCT用於影像壓縮全然不同,在於變換係作用於比例因子指數,其表示非線性量化方案。比例因子並非類似影像品質諸如強度或彩度,比例因子也非與經取樣之振幅直接相對應。
須注意雖然說明書中持續敘述「DCT」為所採用之頻率或矩陣變換,但已知其它正交變換也可同等替代使用諸如子波變換、離散傅立葉變換、卡尼-魯夫(Karhunen-Loeve)變換、或其它變換。
得自各塊「訊息磚」之SCM典型係呈現更容易壓縮之形式(比較比例因子矩陣)。
其次於步驟308,壓縮SCM。根據本發明之最一般性面相,關聯一訊框中之「訊息磚」之SCM可藉任一種方法壓縮,該方法可減少傳輸之位元需求,同時保有用於心理聲學音訊壓縮具有誤差於可接受之容許度以內之再計算比例因子之確定性方法。更特別,於特別新穎實施例中,本發明包括藉減少熵之編碼方法來壓縮SCM之步驟。更特定言之,於一個特定新穎實施例中,本發明包括至少藉數個步驟壓縮SCM之方法:a)根據再量化矩陣而再量化SCM,b)藉差示編碼方法至少壓縮DC係數,c)藉可減少冗餘之編碼方法諸如差示編碼、向量編碼或霍夫曼編碼之任一種組合編碼該等係數(DC係數除外)。然後將已編碼比例因子係數封包化(換言之多工化)用於傳輸(步驟310)。
壓縮SCM之又更特定及特別方法顯示於第5圖之流程圖。本圖顯示SCM壓縮步驟308(於第4圖)之特殊新穎案例。發現本特定方法為適宜,採用差示編碼、向量編碼及霍夫曼編碼之組合來減少傳輸比例因子時之位元需求。聚焦於比例因子之壓縮,欲壓縮之資料表示比例因子之DCT變換係數;該等比例因子係藉非線性映射乘數(或指數)集合表示;及各個乘數係以一對一關係而結合一音訊數量欄位(尾數)。舉例言之,於一個實施例中,比例因子係由短位元組組成,代表以分貝表示之底數層面,暗示係與藉底數為10之對數映射之振幅有關。由於比例因子並非單純振幅或線性數量,習知壓縮線性PCM資料或甚至習知影像資料之方法預期不會具有非線性比例因子資料之優點。已編碼比例因子資料並非類似音訊振幅或類似習知影像數量;如此熟諳技藝人士不會預期使用類似技術來壓縮非類似量。
於進一步編碼前,得自全部「訊息磚」之SCM較佳經再量化(步驟502),認知某些DCT係數比其它係數更有關鍵重要性。一個優異實施例中,係數係根據如方程式1舉例說明之3 x 16再量化矩陣M量化:
方程式1:
M=2,3,3,3,3,3,3,3,0,0,0,0,0,0,0,0,3,3,3,0,0,0,0,0,0,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
矩陣M顯示於較佳實施例中,用於3 x 16「訊息磚」之再量化步驟大小。於矩陣M之登錄項目獲得於SCM之相對應位置所使用之步驟大小。例如於再量化前,比例因子(於具體實施例中)係以分貝表示(底數為10之對數尺規)。DCT係數也與分貝有直接關係。若藉習知標示法(行,列)來標示登錄項目,根據階梯大小矩陣M,於3 x 16「訊息磚」中之DC組件(1,1登錄項目)將以2分貝階梯再量化。3分貝階梯將用於登錄項目(1,2)至(1,8);其它登錄項目,(於再量化矩陣M中與對應於零之比例因子登錄項目除外)可再量化為零,原因在於其對比例因子矩陣之重建的影響極少。經由將SCM中各個係數除以相對應階梯大小,然後四捨五入至最接近的整數,可完成再量化步驟。如熟諳技藝人士已知,須小心避免以零為除數。
再度參考第5圖,於根據階梯大小矩陣M再量化後,其次,第5圖之特定方法藉分叉程序編碼SCM:DC組件(得自各個「訊息磚」之係數矩陣元體1,1集合)特別重要,如此於分支504分開處理。
首先考慮DC係數,於分支504,由各個已再量化SCM取DC係數矩陣登錄項目(與於DCT變換之各方向之最低頻率相對應),適當排列(步驟506)成為具有取決於「訊息磚」數目及其排序之尺寸之一矩陣。若於特定實施例中「鋪訊息磚」樣式並未導致矩形子矩陣陣列,則過量的「訊息磚」被分開處理。舉例言之,於第3圖所示資料結構中,底部4塊「訊息磚」(與最低頻率範圍,整個訊框時間相對應)將分開編碼為個別值。未個別處理之該等「訊息磚」較佳係差異編碼。於較佳實施例中,於步驟508,求出兩個旗標且儲存供傳輸至解碼器:第一旗標指示對水平相鄰「訊息磚」之DC組件是否編碼不同值(時間差編碼);第二旗標指示跨垂直相鄰「訊息磚」之各DC組件是否編碼不同值(頻率差編碼)。若使用差編碼,則相鄰「訊息磚」之DC組件間之差係對各個「訊息磚」邊界計算。例如於第3圖之結構中,於分離底部4塊「訊息磚」後,其餘「訊息磚」可分組成5 x 8樣式。於藉DCT變換後,各個DCT中之DC組件被擷取出且儲存於5 x 8矩陣。若此等編碼可顯著協助壓縮,則5 x 8矩陣中之各個元體可藉差編碼進行編碼。對第一列(用於頻率差編碼)或第一行(用於時間差編碼)中之元體,編碼係數之絕對值(作為跨矩陣其餘部分之差編碼底數)。視需要可採用於時間及頻率二方向之差編碼。例如,同一列之多個登錄項目間之差首先編碼,然後編碼同一行之不同列間之差。大致上,可根據信號特性選用編碼方法來減少資料的冗餘。若干適當差編碼方法為已知,且由差編碼技術可自適應性。其次考慮DC組件以外之已再量化SCM登錄項目,不同壓縮或編碼方法應用於分支520。該方法首先描述為應用來編碼單一「訊息磚」。發明人觀察到於藉此處所述方法編碼之典型音訊資料中,大部分欲編碼之SCM係數具有於由-1至+1之間隔之數值。更特別,大部分技術將等於下列數值中之一者:0、+1、或-1(整數)。如此如決策框522指示,該方法可優異地分歧。於-1至+1之間隔以外的全部係數係於分支524分開處理。於分支524,於-1至+1間隔外側之「迷途」數值係以向量形式(a,b)編碼(步驟526),此處a為(經霍夫曼編碼之)偏移值及b為(經霍夫曼編碼之)數值。其它編碼方法可用來替代霍夫曼編碼;本細節只作為適當可變長度碼實例,其可優異地用於本例來減少位元的使用。偏移值一詞,須瞭解係使用標示矩陣中之位置偏移值的任何系統,特別表示於一掃描樣式中與先前傳輸之「迷途」值(於-1至+1間隔以外)之位置偏移值。「迷途」值總數通常為小;有關SCM之大部分資訊藉並列壓縮徑路2可更有效壓縮。
於並列分支528,該方法壓縮剩餘的更普及的數值,全部皆侷限於-1至+1之範圍。此等數值係以掃描樣式重新排列(步驟530),該等掃描諸如「鋸齒狀」掃描或類似的掃描樣式,其可有效展開一矩陣來產生更方便排列之係數線索或(換言之)向量。於本上下文中,「方便」表示一種排序,其盡最大可能程度,將相鄰矩陣登錄項目置於向量中的相鄰位置;及其意圖將最類似數值或最具有關鍵重要性數值集合來協助壓縮。最熟悉之鋸齒狀掃描樣式典型係始於1,1組件之左上,然後漸進掃描對角線,於對角線末端並未跳過(於各對角線的末端逆轉方向)前進來展開矩陣。有關進一步解說請參考Rao(引述如前)。可採用其它方法,例如基於有序位置之儲存表。
以一般術語說明,步驟532之方法其次前進至藉任一種意圖減少冗餘之方法壓縮係數串(得自步驟528,其餘係數值)。DCT特性及步驟大小的選擇意圖減少各個SCM中有意義的矩陣登錄項目數目。實際上發現每塊「訊息磚」約20個係數串用於傳輸即足(於SCM之左上象限集合成群)。藉以熵減少碼來表示此等係數,可減少位元需求。可單獨或組合採用多項技術:霍夫曼編碼、行程長度熵編碼、向量編碼、算術編碼、或其它已知之編碼可使用且基於測量得之信號統計學為最佳化。特別新穎之解決之道舉例說明如下。
於一項特定編碼解決之道,選用之係數串隨後被分組(步驟532)成為每群4元體之組群(向量)。分組成每組4之組群使得後來採用之霍夫曼編碼處理更有效。使用4個元體,將有16種可能碼(若排除符號)。對±1數值,符號可儲存為一個分開位元。其次,於步驟534,基於各向量4個係數(c1,c2,c3,c4)該方法藉算術方式計算一獨特碼。例如於一個實施例中,計算一碼係等於c1絕對值,加兩倍c2絕對值,加4倍c3絕對值,加8倍c4絕對值。其它計算此等算術碼之方法為已知,可採用任一種編碼方案減少各向量傳輸所需位元數目。最後,由步驟534算出之碼係當作符號處理,各自於步驟536經由探討不同符號出現之不等機率,藉不等長度碼諸如霍夫曼碼進一步編碼,而減少位元需求。
前文說明之步驟502至步驟536係於多塊「訊息磚」對各塊「訊息磚」進行,該等多數可排列成時間/頻率矩陣,如第3圖所示來經由音訊訊框完全規定比例因子。如此,第5圖步驟可對每個音訊訊框中之各塊「訊息磚」重複。選擇性地,於若干實施例中,期望藉步驟502至步驟536之方法編碼一組中之一塊「訊息磚」,然後差異編碼其它「訊息磚」。換言之,首先編碼第一塊「訊息磚」係數;然後對係數矩陣中各個元體,相鄰「訊息磚」係數係藉與前一塊(或頻率相鄰)「訊息磚」之相對應登錄項目之變化表示。可使用跨時間差或跨頻率差。可傳輸旗標來表示時間差編碼或頻率差編碼或直通數值編碼是否用於各個訊框。
現在參考第6圖,始於第5圖顯示為終點之方法節點600。於壓縮比例因子後,最期望於步驟602於編碼器,基於已壓縮之比例因子資料,重建該等比例因子來獲得已重建之比例因子集合。重建方式係逆轉入前文說明之比例因子編碼步驟,或同樣地經由應用後文說明之關聯本發明之解碼器面相之解碼方法步驟進行。經由以比例因子/數量格式視需要重新計算各樣本,來以逐一樣本為基準,最密切匹配原先表示之音訊資料,已重建之比例因子較佳用來再規度化樣本(步驟604)。已重建之比例因子通常係與前述第1圖於模組114中分派的臨時比例因子不同。對任何個別樣本,若原先臨時量化資料係以SF*Q=樣本值表示,則最終資料(Q’)將再計算為數值/RSF,此處RSF為一特定樣本之已重建比例因子。較佳,終音訊資料(Q’)集合經壓縮(步驟606)用於傳輸。
最後,已壓縮比例因子及已壓縮終音訊資料可被封包(步驟610)成為用於傳輸之資料格式。特別於前述具體實施例中,需要藉某種方法將終音訊資料、已壓縮之DC組件、「迷途」係數資料、及已壓縮係數資料共同多工化。最佳係將與一音訊訊框相對應之全部個別資料封裝於一共用有序格式中,該訊框定義得自該音訊信號之一給定預定時間間隔之音訊事件。一種適當格式係顯示於第7圖。資料格式實例包含一系列音訊訊框,較佳具有預定尺寸,但藉該方法之自適應性也可使用各種尺寸。單一訊框大致上於第7圖顯示為701。較佳訊框係始於標頭資訊702,其可包括格式、編碼選項、旗標、權利管理、及其它標頭之一般資訊。其次,於欄位704,比例因子資料適當以下述順序封包:首先,「訊息磚」之DC係數以預定順序封包於欄位704a。其次,超出範圍(超出+1至-1範圍稱作「OOR」)非DC係數(AC係數)之已封包值對各塊「訊息磚」以預定順序於704b封包,各塊「訊息磚」又在更大型的鋪「訊息磚」順序以內。其次,於欄位704c,低頻率「訊息磚」之「於範圍內」已編碼係數係在更大型「訊息磚」順序範圍內對各塊「訊息磚」以預定順序排列。次一欄位704d含有與低頻「訊息磚」相對應之已編碼音訊數量資料。於704d後,與較高頻「訊息磚」相關之其餘係數(於+1至-1之範圍)封包於704e。於704e後,得自更高頻「訊息磚」之已封包已編碼音訊樣本係於704f封包。於典型應用,藉資料之單純時域多工化,可完成此項排序,其優點為於心理聲學上重要性較高的元體係於位元流中首先出現。如此若帶寬不足或處理時間不足,則可單純拋棄較不重要之高頻比例因子及樣本資料,信號仍然可解碼(於重製後音訊中具有減少的頻率範圍)。另外可採用其它封包方案及其它多工化方法,如特定通訊頻道之需求指示。
於傳輸(或儲存)及接收(取回)已壓縮之音訊信號後,可藉與編碼器採用之方法互補之方法解碼。要言之,解碼方法逆轉編碼方法之各步驟來復原比例因子。第8圖顯示根據本發明之解碼器裝置之方塊圖。於802,來自於所接收之位元流之輸入信號藉解多工器804解多工化,將所接收之資料格式分離成於徑路806之已編碼之比例因子資料,及於多數子頻帶分支808a-e之樣本資料。一給定實施例中,此種分支之實際數目將取決於於特定編碼實施例所使用之「訊息磚」樣式,其須匹配編碼器,否則須前傳資訊來通知解碼器有關鋪「訊息磚」樣式。已編碼音訊資料於步驟810藉逆轉數量編碼(得自步驟606)而解碼,於各個子頻帶根據於編碼器施加之量化方案而解量化(步驟812)。
已編碼比例因子係數藉逆轉先前於第5圖實施的編碼而解壓縮(步驟820)獲得比例因子係數矩陣。此等矩陣其次藉與用來編碼之反相正交變換而變換,最適合係於步驟822a-e藉反相離散餘弦變換,該方法匹配編碼期間應用之各塊「訊息磚」之矩形尺寸。為了將各比例因子與其相對應之音訊資料(尾數)結合,方便地係經由將多數「訊息磚」串級連結來將所復原的比例因子(於步驟824)分組成二維資料訊框,形成就帶寬及連續完整時間訊框而言有更大跨距之矩陣。換言之,比例因子係以通常與前文第3圖舉例說明之訊框相對應之資料結構儲存。相關聯之音訊資料係於相同結構或並列結構分組。
於比例因子復原後,比例因子用來復原原先來源音訊樣本之接近複本如下:於多數子頻帶之各頻帶中,與對數量相對應之比例因子(分貝)隨後經指數化來獲得線性比例因子(於步驟826)。然後將各樣本之線性比例因子乘(於「轉換成固定」步驟814)以與相同樣本相對應之音訊資料(Q,或換言之尾數)來重建音訊樣本。所得子頻帶信號仍然係與通常類似第3圖形式之一訊框結構相對應。
為了以音訊樣本寬帶序列形式恢復音訊,進一步要求反相處理音訊樣本之時間-頻率矩陣成為寬帶音訊序列。採用來重建時間循序樣本之寬帶串列之方法將依據特定實施例決定。發明人首先考慮採用時域數位濾波器(諸如QMF或多相位濾波器)之實施例。於此種實施例中,各個子帶中之子帶樣本於時序(由最舊至最近)中位移偏離矩陣,於並列徑路830中之子頻帶進入合成濾波器步驟832。於合成濾波器步驟832,經臨界取樣之音訊子頻帶樣本被升取樣,然後通過匹配編碼器中使用之並列系列合成濾波器濾波。並列子頻帶信號也於步驟832混合來於輸出信號840重建音訊樣本寬帶序列。輸出序列為來源音訊之接近複本(第1圖之輸入信號)。
於使用變換技術之實施例中,該方法係與前一段所述方法不同。替代合成濾波,該方法遵照下列步驟:首先,各行訊框SF矩陣之反相變換(一頻率箱集合),接著為反相視窗化來獲得一循序時域串列音訊樣本。基於變換之實施例細節方便由熟諳技藝人士實現。有關更多資訊可參考Vaidyanathan或Bosi之工作(二者皆如前文引述)。
已解碼音訊信號840可藉接收器儲存或進一步處理。有時,須瞭解已編碼音訊資料係藉D/A變換器變換成類比電子信號,放大,及用來為收聽者重製聲音。此等功能常見係藉揚聲器模組842而集合成群與象徵化。如此本發明裝置及方法於過渡(藉產生可傳輸及儲存之電子資料信號)及最終(藉造成聲音由轉發器發射先前記錄的或傳輸的聲音之複本聲音)產生有形實體效應。
第9圖更特別顯示解碼器之更特定新穎實施例之各步驟。此等步驟經特化因而允許組成特定實例之解碼器,該實例解碼器係與前文就第1-7圖討論之實例編碼器互補。更為特化之細節主要係有關編碼比例因子之特殊方法;因此理由故,未顯示與尾數相關之資料徑路,但瞭解係存在於本發明。
此處所述各步驟為模組820、822a-e、824、及826之特定及特化細節,該等模組更加概略說明如前。發現本特定實施例於相對低位元率可有效達成對解碼器之位元需求減少於30%。
於方塊902,解碼器接收被拆封的資料(先前於第8圖步驟804之解多工化),且將所傳輸之資料分離成相對應之「訊息磚」。基於所傳輸之旗標設定值,解碼器將判定是否使用差異編碼。此項判定將影響解碼「訊息磚」方法如下。
其次,解碼器前進而解碼係數資料。「迷途」(於解多工步驟804認知)係藉徑路904之後之方法解碼;「於範圍內」之係數係透過徑路906解碼。
對於徑路904之迷途值,首先逆轉(步驟908)霍夫曼編碼(或其它熵減少碼)來獲得向量,該等向量將迷途資料表現為(位置,數值)。
對於徑路906中之「於範圍內」數值,該方法解碼霍夫曼碼而獲得算術碼集合(步驟910)。算術碼各自係與獨特4向量相對應。然後算術碼藉與用來編碼4個向量之互補方法解碼(步驟912)而獲得一串列4個向量。然後向量經串級連結來形成字串(步驟914),及插入迷途值(步驟916)。然後藉遵照與編碼器中用來形成字串相對應之掃描路徑(諸如鋸齒形掃描),將字串重排(步驟920)成為SCM「訊息磚」(訊框矩陣之子矩陣)。
用於藉差異編碼而編碼之「訊息磚」,需要將矩陣登錄項目與相鄰矩陣之登錄項目加總來逆轉差異掃描(步驟922)。一旦已經重建SCM「訊息磚」,係以與編碼所使用之變換反相的正交變換,較佳係使用二維反相離散餘弦變換(IDCT)處理(步驟924)。(須瞭解步驟924之IDCT係與第8圖之步驟932相對應,本圖為第8圖所示更為一般方法之特例)。此等步驟產生一串列比例因子「訊息磚」。
於重建後,比例因子「訊息磚」較佳係以預定樣式串級連結成更大型訊框矩陣(步驟824)。此種串級連結單純係以與用來將該矩陣分割成為多塊「訊息磚」(第4圖步驟304,編碼方法)所使用之樣式互補的樣式而將子矩陣黏貼成為一個大型矩陣。根據與編碼器所採用之函數互補的函數,所得比例因子矩陣隨後變換(或換言之,於步驟826再量化)成線性比例因子。於典型應用中,本步驟包含由分貝標度變換成為線性比例因子。(於本上下文中「再量化」之通俗術語係指解量化,或換言之由對數標度擴展成線性標度。也可於其它上下文中用來指用於壓縮目的之再量化處理)。
於本發明之一個特定新穎實施例中,藉「刻痕去除」方法而進一步提升編碼效率,刻痕去除方法係於變換及進一步編碼之前施加至比例因子資料。本步驟顯示於第4圖步驟305,適合於將訊框分解成為多塊「訊息磚」(步驟304)之後而於步驟306之前使用。
發明人觀察得初步將比例因子組織成矩陣之後,此等矩陣之各列及各行具有多個「刻痕」。換言之,有些地方通常為線性的趨勢被一個低值所岔斷。此等刻痕增加變換後係數矩陣的複雜度,使得比例因子資料較非精簡。
如此,於本發明之一個新穎實施例中,於比例因子資料中之「刻痕」係藉此處所述方法移除。刻痕移除方法包括藉預測模型修改至少一塊「訊息磚」,該預測模型係藉跨a)多列及b)多行中之至少一者計算得之趨勢將一矩陣模型化,來獲得修改型比例因子矩陣。於第4-5圖之編碼方法中進一步處理前,比例因子矩陣實際上藉修改型更平順的比例因子矩陣置換。於簡單方法中,應用線性預測模型。另外,該方法可經修改來應用多項式預測模型。
刻痕移除方法顯示於第10圖。用於刻痕移除方法之說明,發明人考慮比例因子值Dij之NxK矩陣D作為輸入信號。首先,計算(步驟950)線性趨勢(定標)Trow成為如方程式2a所示數值之單純線性加權規度化和:
中括弧中含括逐行平均。減法中的第二項為平均值。
同理,對於各行,該方法藉如下方程式計算行趨勢(定標)Tcol(步驟952):
可採用其它手段用於趨勢計算,但限制條件為該方法提供跨該列(或該行)矩陣之若干平均斜率。第一趨勢為定標Trow;第二趨勢為定標Tcol
於本計算後,趨勢藉列指數及行指數定標,且根據如下方程式由矩陣D扣除(步驟954):
方程式3:
DTij=Di,j-Trow*i-Tcol*j
然後跨矩陣DT之各列求出中間值,結果獲得N個中間值Mrowi之向量(步驟956)。同理,跨矩陣各行計算中間值,獲得K個中間值Mcolj之向量。如本揭示使用,「中間值」表示將族群的上半與下半分隔之數目。
其次,對計算得之中間值(對列及行)測試矩陣DT之各個成員。若DTi,j比任一個中間值更高,則未採行任何動作。若DT低於二中間值,則最低中間值被指定來置換DT之數值(步驟958)。因此:
方程式4
DTi,j=min(Mrowi,Mcolj)
然後藉加法再度插入趨勢(步驟960):
方程式5
OUTi,j=DTi,j+Trow*i+Tcol*j
矩陣OUTi,j取代作為比例因子矩陣,且用於進一步編碼步驟作為「已平順化的」比例因子矩陣。
須瞭解矩陣OUT已經藉刻痕移除而平順化;只要臨時比例因子分派先前係以某種最佳方式進行,則就量化雜訊而言,根據矩陣OUT之量化將非為最佳。但非為最佳之比例因子將限於表示較高比例因子間之一個開槽之該等矩陣登錄項目;頻帶係夾置於有較高信號位準之兩個頻率間;或相鄰於有較高振幅信號之一時槽之短時槽。第一種情況為其中預期發生心理聲學頻率遮蔽的情況;第二種案例係與相鄰於大聲變遷有寂靜通過(應出現時間遮蔽作用)。兩種情況下,由於心理聲學遮蔽現象,可容許非為最佳之量化。因此理由故,發現藉刻痕移除將比例因子矩陣平順化可減少編碼之位元需求,同時提供信號之主觀上可接受的複製。另外,額外位元可配置來於心理聲學較為敏感區改良信號對雜訊比。
雖然已經顯示及說明本發明之若干具體實施例,但熟諳技藝人士顯然易知多種變化例及替代實施例。舉例言之,如前文說明,多種變換諸如傅立葉變換、DCT、或修改型DCT變換可用來將音訊信號分離成子頻帶(換言之頻率箱),藉此產生二維訊框。可使用多種函數來於非線性映射定義比例因子,而非分貝標度。可使用不同資料格式、不同熵減少碼、及不同鋪「訊息磚」樣式及不同訊框大小。此等變化例及替代實施例預期皆涵蓋於本發明之範圍,可未悖離如隨附之申請專利範圍界定之本發明之精髓及範圍做出此等變化例及替代實施例。
102‧‧‧輸入端
110‧‧‧濾波器組、多分枝多頻帶分析濾波器組
112‧‧‧子頻帶輸出信號
114‧‧‧分派模組
116‧‧‧編碼模組
120‧‧‧處理模組
122‧‧‧比例因子壓縮模組
124‧‧‧二維變換
126‧‧‧編碼方塊
128‧‧‧傳輸模組
129‧‧‧解碼比例因子矩陣(SFM)、解碼器
130‧‧‧再量化模組
132‧‧‧多工器
200‧‧‧接收器
202‧‧‧解多工器
204‧‧‧比例因子解碼器
206‧‧‧數量欄位解碼器
208‧‧‧乘法方塊
210‧‧‧數位輸出信號
240‧‧‧格子、矩陣、音訊訊框矩陣
244‧‧‧低頻子頻帶
246‧‧‧頻帶
250a-b‧‧‧訊息磚
302‧‧‧節點
302~310、502~610、802~832、902、908~924、950~960‧‧‧方法步驟
701‧‧‧單一訊框
702‧‧‧標頭資訊
704、704a-f‧‧‧欄位
840‧‧‧已解碼音訊信號、輸出音訊信號
842‧‧‧揚聲器模組
904、906‧‧‧徑路
第1圖為根據本發明之一般編碼器之高階示意圖,功能模組係以方塊顯示;第2圖為根據本發明之一般解碼器之示意圖;第3圖為與分離成子頻帶且藉樣本時間組織之一比例因子矩陣相對應之一資料矩陣之代表圖,不同子頻帶係於頻率軸上藉頻率分配,及不同時間係於正交時間軸上藉樣本時間組織;第4圖為高階程序圖或「流程」圖以一般層面顯示根據本發明之編碼方法之各步驟;第5圖為流程圖顯示壓縮比例因子係數矩陣(SCM)之一特定方法之特定步驟,本特定方法可用於本發明之特定實施例來壓縮第4圖之SCM;第6圖為流程圖顯示第5圖之方法之延續,包括進一步壓縮SCM及數量參數用於經由一通訊頻道傳輸之各步驟;第7圖為適合用於包括一訊框之一資料格式實例,包括用於傳輸或記錄之已編碼比例因子及音訊數量資料;第8圖為流程圖顯示解碼藉第1至7圖之方法所編碼之比例因子及音訊資料之各步驟;
第9圖為流程圖顯示一特定實施例之各步驟,顯示可用於解碼藉第1至7圖之方法所編碼之比例因子及音訊資料之更特定步驟;及
第10圖為可用於第5圖所示編碼方法之上下文之新穎刻痕移除方法之流程圖。
102‧‧‧輸入端
110‧‧‧濾波器組、多分枝多頻帶分析濾波器組
112‧‧‧子頻帶輸出信號
114‧‧‧分派模組
116‧‧‧編碼模組
120‧‧‧處理模組
122‧‧‧比例因子壓縮模組
124‧‧‧二維變換
126‧‧‧編碼方塊
128‧‧‧傳輸模組
129‧‧‧解碼比例因子矩陣(SFM)、解碼器
130‧‧‧再量化模組
132‧‧‧多工器

Claims (34)

  1. 一種壓縮數位化音訊信號之方法,其係於表示聲音樣本或頻譜值之一音訊壓縮系統中使用一比例因子加資料格式來壓縮表示一聲音之該數位化音訊信號,該信號具有一音訊帶寬,其中一樣本係以一比例因子及一關聯數量之乘積表示,該方法包含下列步驟:接收表示一聲音之一數位信號;將樣本組織成至少一個音訊訊框,該訊框包含表示一時間間隔之多個時間上循序樣本;對各個訊框,將該等多個時間上循序樣本處理成多個子頻帶信號,各個子頻帶信號表示一個別子頻帶頻率範圍,且包含於該子頻帶頻率範圍內之音訊樣本之一時間序列;將該等子頻帶信號轉換成表示各個已濾波之音訊樣本之一格式,作為a)於一比例因子欄位中表示之一比例因子與b)於一數量欄位中表示之一數量欄位的乘積;將該等子頻帶信號之多個比例因子欄位組織成以時間作為第一維度及以一子頻帶頻率範圍作為第二維度所組織之一個二維比例因子矩陣;將該二維比例因子矩陣分割成多個訊息磚(tile),該等多個訊息磚各為該二維比例因子矩陣之一子矩陣;以一個二維正交變換處理來自該等多個訊息磚之至少一個訊息磚,來對該等多個訊息磚之該至少一訊息磚產生一個別比例因子係數矩陣(SCM); 壓縮該SCM而產生以一壓縮格式表示於一訊息磚中之比例因子之一已壓縮係數矩陣;以及將該已壓縮係數矩陣封包成用於傳輸之一資料格式。
  2. 如申請專利範圍第1項之方法,其中該正交變換包含一個二維離散餘弦變換。
  3. 如申請專利範圍第1項之方法,其中上述二維矩陣表示一完整音訊訊框;該等多個訊息磚各表示該完整音訊訊框之一次時間間隔及頻率範圍之一分量。
  4. 如申請專利範圍第3項之方法,進一步包含下述步驟:於處理來自該等多個訊息磚之至少一訊息磚之步驟後,根據一再量化矩陣而再量化該至少一訊息磚。
  5. 如申請專利範圍第1項之方法,其中壓縮步驟包含:對至少一個SCM,將係數重排成一係數字串。
  6. 如申請專利範圍第5項之方法,其中之壓縮步驟進一步包含:使用一熵減少碼來壓縮該係數字串。
  7. 如申請專利範圍第6項之方法,其中該熵減少碼包含一霍夫曼碼。
  8. 如申請專利範圍第1項之方法,其中壓縮步驟包含於一共用訊框中跨相關訊息磚使用差異編碼。
  9. 如申請專利範圍第1項之方法,其中組織該等比例因子欄位之步驟包含藉一預測模型其係藉跨a)列及b)欄中之至少一者之計算得的趨勢模型化一矩陣,修改上述二維 矩陣來獲得一修改型比例因子矩陣。
  10. 如申請專利範圍第9項之方法,其中該預測模型包含一線性預測模型,及其中該計算得之趨勢為一線性趨勢。
  11. 如申請專利範圍第9項之方法,其中該預測模型包含一多項式模型,及該計算得之趨勢包含一多項式函數。
  12. 如申請專利範圍第1項之方法,其中將該等多個時間上循序樣本處理成多個子頻帶信號之步驟包含:以一數位帶通濾波器之排組濾波該等時間上循序樣本,然後等分(decimate)來產生多個臨界取樣之子頻帶信號。
  13. 如申請專利範圍第1項之方法,其中將該等多個時間上循序樣本處理成多個子頻帶信號之步驟包含:藉一頻率變換將該等樣本之循序集合變換成一頻域表示型態,來對各該集合產生與一頻率箱(bin)集合相對應之一串列子頻帶信號。
  14. 如申請專利範圍第1項之方法,進一步包含經由一傳輸媒體傳輸該已壓縮係數矩陣之步驟。
  15. 如申請專利範圍第14項之方法,其中該傳輸媒體包含一資料網路。
  16. 如申請專利範圍第1項之方法,進一步包含將該已壓縮係數矩陣記錄於一機器可讀媒體上之步驟。
  17. 一種解碼已編碼壓縮數位化音訊信號之方法,該已編碼壓縮數位化音訊信號表示一聲音信號,該方法可用於解碼一信號,其中樣本係藉表示聲音樣本或頻譜值之系統 使用一比例因子加數量格式壓縮,其中一樣本係以一比例因子與一關聯數量(Q)之乘積表示,該方法包含下列步驟:將一接收得之資料封包拆封包來分離根據請求項1之方法所壓縮的已編碼之比例因子資料及已編碼之數量資料;將已編碼之比例因子係數矩陣(SCM)解壓縮來產生至少一個係數矩陣;以及以一個二維反相正交變換來變換該至少一個矩陣,該反相正交變換係請求項1中所述正交變換的反相,用來壓縮該等係數矩陣以獲得至少一個相對應之比例因子子矩陣。
  18. 如申請專利範圍第17項之方法,其中該反相正交變換包含一反相二維離散餘弦變換。
  19. 如申請專利範圍第17項之方法,其中:該至少一個係數矩陣包含多個係數矩陣;變換該至少一個係數矩陣之步驟包含變換多個係數矩陣中之各個矩陣而獲得多個相對應之比例因子子矩陣;及進一步包含經由以與一已知編碼器中使用之鋪訊息磚樣式相對應之一預定訊息磚樣式,串級連結該等比例因子子矩陣而將該等比例因子子矩陣組裝成為一較大訊框矩陣之步驟。
  20. 如申請專利範圍第17項之方法,其中將已編碼之該比例 因子係數矩陣解壓縮之步驟包含解碼一熵減少碼。
  21. 如申請專利範圍第20項之方法,其中該熵減少碼包含一霍夫曼碼。
  22. 如申請專利範圍第21項之方法,其中將已編碼之該比例因子資料解壓縮之步驟進一步包含將於一共用訊框矩陣中之相鄰子矩陣間之差值進行解碼,及加總該等差值而重建子矩陣。
  23. 如申請專利範圍第21項之方法,進一步包含下述步驟:經由將解壓縮之該等比例因子由一非線性量化變換成一線性比例因子,再量化比例因子矩陣來獲得已解壓縮再量化之一比例因子矩陣,藉此計算用於一音訊訊框之一比例因子矩陣。
  24. 如申請專利範圍第17項之方法,進一步包含下列步驟:將再量化解壓縮之該比例因子矩陣之元件乘以相對應之資料量(Q)來重建一音訊樣本矩陣。
  25. 如申請專利範圍第24項之方法,進一步包含將該音訊樣本矩陣進行處理以建構一循序數位化音訊樣本串流之步驟。
  26. 如申請專利範圍第25項之方法,其中處理該音訊樣本矩陣之步驟包含:對該音訊樣本矩陣之各列,以一合成濾波器處理該列,該合成濾波器係以與於一已知編碼器中進行等分互補之方式,升取樣該列至樣本中之一訊框長度,藉此獲得多個已重建之子頻帶信號; 混合已重建之該子頻帶信號來產生表示一聲音之一全頻帶音訊信號之複本。
  27. 如申請專利範圍第26項之方法,進一步包含將音訊樣本輸出至另一個裝置用於重製一聲音之步驟。
  28. 如申請專利範圍第26項之方法,進一步包含基於該循序數位化音訊樣本串流致使一聲音被重製之步驟,該聲音為藉一與解碼方法相容之方法所編碼之一聲音之近似複本。
  29. 如申請專利範圍第17項之方法,進一步包含下列步驟:接收一輸入信號;以及將該信號解碼成資料封包。
  30. 如申請專利範圍第29項之方法,其中該輸入信號係接收自一資料網路。
  31. 如申請專利範圍第29項之方法,其中該信號係讀取自一機器可讀儲存媒體。
  32. 一種機器可讀儲存媒體,其適合用於儲存壓縮之音訊資訊,其中各個樣本係以一比例因子與一相對應數量之乘積表示,該媒體儲存包含用以在機器執行之根據請求項1所述之方法之步驟的程式。
  33. 如申請專利範圍第32項之機器可讀儲存媒體,其中該正交變換包含一個二維離散餘弦變換。
  34. 如申請專利範圍第33項之機器可讀儲存媒體,其中已編碼之資料欄位係進一步藉一熵減少碼編碼比例因子係數矩陣而予以編碼。
TW098122012A 2008-07-24 2009-06-30 壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體 TWI515720B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/220,492 US8290782B2 (en) 2008-07-24 2008-07-24 Compression of audio scale-factors by two-dimensional transformation

Publications (2)

Publication Number Publication Date
TW201007699A TW201007699A (en) 2010-02-16
TWI515720B true TWI515720B (zh) 2016-01-01

Family

ID=41569439

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098122012A TWI515720B (zh) 2008-07-24 2009-06-30 壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體

Country Status (8)

Country Link
US (1) US8290782B2 (zh)
EP (1) EP2308045B1 (zh)
JP (1) JP5453422B2 (zh)
KR (1) KR101517265B1 (zh)
CN (1) CN102150207B (zh)
HK (1) HK1156146A1 (zh)
TW (1) TWI515720B (zh)
WO (1) WO2010011249A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10123050B2 (en) * 2008-07-11 2018-11-06 Qualcomm Incorporated Filtering video data using a plurality of filters
EP2182513B1 (en) * 2008-11-04 2013-03-20 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US9143803B2 (en) * 2009-01-15 2015-09-22 Qualcomm Incorporated Filter prediction based on activity metrics in video coding
EP2224425B1 (en) * 2009-02-26 2012-02-08 Honda Research Institute Europe GmbH An audio signal processing system and autonomous robot having such system
US20100324913A1 (en) * 2009-06-18 2010-12-23 Jacek Piotr Stachurski Method and System for Block Adaptive Fractional-Bit Per Sample Encoding
US9600855B2 (en) * 2009-07-11 2017-03-21 Hewlett-Packard Development Company, L.P. View projection
US8294396B2 (en) * 2009-07-13 2012-10-23 Hamilton Sundstrand Space Systems International, Inc. Compact FPGA-based digital motor controller
CN102576531B (zh) * 2009-10-12 2015-01-21 诺基亚公司 用于处理多信道音频信号的方法、设备
EP2372705A1 (en) * 2010-03-24 2011-10-05 Thomson Licensing Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
WO2012069886A1 (en) * 2010-11-26 2012-05-31 Nokia Corporation Coding of strings
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
US8964853B2 (en) 2011-02-23 2015-02-24 Qualcomm Incorporated Multi-metric filtering
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
US8767824B2 (en) * 2011-07-11 2014-07-01 Sharp Kabushiki Kaisha Video decoder parallelization for tiles
US9379830B2 (en) * 2013-08-16 2016-06-28 Arris Enterprises, Inc. Digitized broadcast signals
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
CN104135452B (zh) * 2014-08-08 2018-05-01 福建三元达网络技术有限公司 一种iq数据同步压缩还原算法及装置
CN105632505B (zh) * 2014-11-28 2019-12-20 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3424048A1 (en) * 2016-03-03 2019-01-09 Nokia Technologies OY Audio signal encoder, audio signal decoder, method for encoding and method for decoding
KR102169435B1 (ko) 2016-03-21 2020-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 가중된 행렬 계수의 적응형 양자화
KR102546098B1 (ko) 2016-03-21 2023-06-22 한국전자통신연구원 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
WO2018001489A1 (en) * 2016-06-30 2018-01-04 Huawei Technologies Duesseldorf Gmbh Apparatuses and methods for encoding and decoding a multichannel audio signal
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
KR102414583B1 (ko) * 2017-03-23 2022-06-29 삼성전자주식회사 머신 러닝을 수행하는 전자 장치 및 머신 러닝 수행 방법
US10699723B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
US10572255B2 (en) * 2017-06-29 2020-02-25 Texas Instruments Incorporated Stream engine with element promotion and decimation modes
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109147795B (zh) * 2018-08-06 2021-05-14 珠海全志科技股份有限公司 声纹数据传输、识别方法、识别装置和存储介质
TWI719385B (zh) * 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
US11600282B2 (en) * 2021-07-02 2023-03-07 Google Llc Compressing audio waveforms using neural networks and vector quantizers
CN114629501B (zh) * 2022-03-16 2024-06-14 重庆邮电大学 一种机械加工过程状态信息的边缘数据分类压缩方法
CN115632661B (zh) * 2022-12-22 2023-03-07 互丰科技(北京)有限公司 网络安全信息高效压缩传输方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4102324C1 (zh) * 1991-01-26 1992-06-17 Institut Fuer Rundfunktechnik Gmbh, 8000 Muenchen, De
JP3178026B2 (ja) 1991-08-23 2001-06-18 ソニー株式会社 ディジタル信号符号化装置及び復号化装置
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP3173218B2 (ja) * 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
JPH06324093A (ja) * 1993-05-14 1994-11-25 Sony Corp オーディオ信号のスペクトル表示装置
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
GB9606680D0 (en) * 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
DE19613643A1 (de) * 1996-04-04 1997-10-09 Fraunhofer Ges Forschung Verfahren zum Codieren eines mit einer niedrigen Abtastrate digitalisierten Audiosignals
WO1999041844A1 (en) * 1998-02-12 1999-08-19 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. A neural network based method for exponent coding in a transform coder for high quality audio
JP2001134295A (ja) * 1999-08-23 2001-05-18 Sony Corp 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
MXPA03007064A (es) * 2001-02-07 2004-05-24 Dolby Lab Licensing Corp Conversion de canales de audio.
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
JP3982397B2 (ja) * 2001-11-28 2007-09-26 日本ビクター株式会社 可変長符号化データ復号化用プログラム及び可変長符号化データ受信用プログラム
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7471850B2 (en) * 2004-12-17 2008-12-30 Microsoft Corporation Reversible transform for lossy and lossless 2-D data compression
JP4116628B2 (ja) * 2005-02-08 2008-07-09 株式会社東芝 オーディオ符号化方法およびオーディオ符号化装置
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information

Also Published As

Publication number Publication date
TW201007699A (en) 2010-02-16
JP2011529199A (ja) 2011-12-01
US8290782B2 (en) 2012-10-16
US20100023336A1 (en) 2010-01-28
CN102150207B (zh) 2013-04-10
EP2308045A4 (en) 2012-09-12
KR101517265B1 (ko) 2015-05-04
KR20110046498A (ko) 2011-05-04
CN102150207A (zh) 2011-08-10
JP5453422B2 (ja) 2014-03-26
HK1156146A1 (en) 2012-06-01
EP2308045B1 (en) 2020-09-23
WO2010011249A1 (en) 2010-01-28
EP2308045A1 (en) 2011-04-13

Similar Documents

Publication Publication Date Title
TWI515720B (zh) 壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體
JP5593419B2 (ja) 可逆マルチチャネル・オーディオ・コーデック
US6675148B2 (en) Lossless audio coder
EP1743326B1 (en) Lossless multi-channel audio codec
KR20050123396A (ko) 저비트율 부호화/복호화 방법 및 장치
US20090164223A1 (en) Lossless multi-channel audio codec
US8239210B2 (en) Lossless multi-channel audio codec
JP2004289196A (ja) ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
JPH0863901A (ja) 信号記録方法及び装置、信号再生装置、並びに記録媒体
KR100349329B1 (ko) 엠펙-2 고품질 오디오 처리 알고리즘의 병렬 처리 방법
EP1016231A1 (en) Fast synthesis sub-band filtering method for digital signal decoding
JPH09130258A (ja) オーディオ記録再生装置及びオーディオ信号符号化装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees