TW200534602A - Encoding blocks of audio information arranged in frames with constrained optimization of segmenting the frames into groups of blocks - Google Patents

Encoding blocks of audio information arranged in frames with constrained optimization of segmenting the frames into groups of blocks Download PDF

Info

Publication number
TW200534602A
TW200534602A TW094101656A TW94101656A TW200534602A TW 200534602 A TW200534602 A TW 200534602A TW 094101656 A TW094101656 A TW 094101656A TW 94101656 A TW94101656 A TW 94101656A TW 200534602 A TW200534602 A TW 200534602A
Authority
TW
Taiwan
Prior art keywords
group
groups
blocks
block
audio information
Prior art date
Application number
TW094101656A
Other languages
English (en)
Inventor
Matthew Conrad Fellers
Mark Stuart Vinton
Claus Bauer
Grant Allen Davidson
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of TW200534602A publication Critical patent/TW200534602A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Road Signs Or Road Markings (AREA)

Description

200534602 九、發明說明: 【發明所屬^技術領】 發明領域 本發明係關於數位音訊編碼器操作之最佳化,該數位 5音訊編碼器屬於下述類別,其應用編碼方法至一或多個表 不一或多音訊通道之音訊資訊流,而被分段成為各個訊 框,各個訊框包含-或多個數位音訊資訊區塊。特別,本 發明係關於以訊框配置之音訊資訊區塊分成群組,因而最 佳化應用至該等訊框之編碼方法。 1〇 【先前技術】 發明背景 多種音訊處理系統係經由將音訊資訊流劃分為各個訊 框,以及進一步將各個訊框劃分成為循序資訊區塊,表示 於一特定時間間隔之一音訊資訊部分來操作。某種類型之 15信號處理應用至音訊資訊流之各個區塊。應用知覺編碼處 理至各個區塊之音訊處理系統二例為符合先進音訊編碼器 (AAC)標準之系統,AAC標準述於ISO/IEC 13818-7。 「MPEG-2先進音訊編碼AAC」國際標準,1997年;ISO/IEC JTC1/SC29「資訊技術-極低bitrate影音編碼」及ISO/IEC 20 IS-14496(第3部分音訊),1996年,以及所謂之AC-3系統, 其符合先進電視系統委員會(ATSC)A/52A文件名稱「數位 音訊壓縮(AC-3)標準修訂版A」,2001年8月20日公告所述之 編碼標準。 多種音訊處理系統應用至區塊之一類型信號處理為一 5 200534602 種知覺編碼形式,其係進行區塊之音訊資訊分析,來獲得 其頻譜成分之表示法,估計頻譜成分之知覺遮罩效果,量 化頻譜成分,讓結果所得之量化雜訊為無法聽聞,或其聽 聞性儘可能變低,以及將量化後之頻譜成分之表示法組裝 5 成為一經編碼信號,該經編碼信號可被傳輸或記錄。由量 化頻譜成分回復一音訊資訊區塊所需一組控制參數也被組 裝成編碼彳§號。
10 頻譜分析可以多種方式進行,但常見使用時域轉換分 析或使用頻域轉換分析。當音訊資訊區塊轉換成為頻域表 示法時,Itfl資訊之頻譜成分係藉向量序列表示,該向量 序列中之各個向量表示各別區塊之頻譜成分。向量元體為 頻域係數,各個向量元體指數係對應—特殊頻率間隔。藉 各個轉換係數表示之頻率間隔寬度為固定寬度或可變寬 15
20 度。藉基於富立葉轉換例如離散富立葉轉換(猶)或離散正 弦轉換(DCT)所產生之轉換係數表示之頻率_寬度和 定。由子波轉換或顿·封包轉輪生之轉換隸表示之頻 率間隔寬度為可變’該頻率間隔寬度典型係隨著頻率之增 高而加大。例如參考A.Akansu,R Haddad「^_·解、轉換、子頻帶、子波」,學術出版社,聖地牙哥,㈣ 年0 -類信號處理可用來由經知覺編碼信號回復一音訊資 訊區^該類型信號的處理由該編碼信號獲得-組控制參 數及S化頻譜成分之表示法, 且使用此組參數來導出頻譜 成分供合成為-音訊資訊區塊1合成係與用來產生編碼 6 200534602 信號之分析互補。使用頻域至時域轉換之合成方法為常見 方法。 於多項編碼應用,可用來傳輸或記錄經編碼信號之頻 寬或空間有限,此項限制對可用來表示量化頻譜成分之資 5 料量造成嚴重限制。傳輸控制參數集合所需資料為額外管 理資料量,因而進一步減少可用來表示量化頻譜成分之資 料量。 於若干編碼系統,一控制參數集合用來編碼各個音訊 資訊區塊。於此類型編碼系統減少額外管理資料量之一種 10 已知技術,為控制編碼方法,讓只須一組控制參數來由編 碼信號回復複數個音訊資訊區塊。若該編碼方法經控制成 十個區塊共用一組控制參數(舉例),則此等控制參數之額外 管理資料量減少90%。不幸,若控制參數係由過多個區塊 所共用,則音訊信號不穩定,對一訊框的全部音訊資訊區 15 塊之編碼處理效率無法變最佳化。需要有一種經由控制處 理,減少傳輸控制參數所需額外管理資料量,來最佳化信 號處理效率之方式。 【發明内容】 發明概要 20 根據本發明,配置成訊框之多個音訊資訊區塊被成組 成為一或多個區塊集合或一或多個區塊群組,讓每個區塊 於各別群組。各個群組可由一訊框内部之單一區塊或二或 多個區塊集合所組成,應用至該群組各個區塊之方法係使 用一或多個控制參數之共同集合,例如規度因數集合。本 7 200534602 發明係針對控制區塊之分組來最佳化信號處理效率。 例如,於一編碼系統,包含音訊資訊區塊之音訊資訊 流排列成為多個訊框,此處各個訊框有一或多區塊群組。 或夕個編碼參數集合用來對各別群組内部的全部區塊之 5音訊貧訊加以編碼。區塊經分組,來最佳化編碼效能之若 干測量值。舉例言之,結合本發明之各方面之一種編碼系 統可控制區塊之分組,來比較—參考信號(其中各個區塊係 使用其本身之編碼參數編碼)之編碼信號之失真,最小化p 號錯誤,該信號錯誤係表示對訊框中各個群組使用共用編 10碼參數而於一訊框之編碼音訊資訊之失真。 本發明之各項特色及其較佳具體例經由參照後文討論 及附圖將更為明瞭,附圖中類似的參考編號表示數幅圖間 之類似元件。後文討論内容及附圖僅供舉例說明之用,絕 非表示限制本發明之範圍。 15圖式簡單說明 第1圖為可結合本發明之各方面之-種音訊編碼系統 之方塊圖。 訊框之區塊群組之 第2圖為於迭代處理用以找出於一 最佳數目之外迴圈流程圖。 20 第3Α圖及第3Β圖為於迭代處理用 最佳區塊分組之内迴圈流程圖。 以找出於一訊框之 第4圖為貪婪合併方法之流程圖 至4區塊之貪婪合併方 第5圖為構想方塊圖,顯示應用 法之範例。 8 200534602 第6圖為可用來實作本發明之各方面之裝置之示意方 塊圖。 t實施方式3 執行本發明之模式 5 A.引言 第1圖顯示一種音訊編碼系統,其中編碼器丨〇由路徑5 接收一或多表示一或多音訊信號通道之音訊資訊流。編碼 器10處理音訊資訊流’來沿路徑15產生可被傳輸或可被記 錄之編碼信號。隨後編碼信號由解碼器2〇接收,解碼器2〇 10處理編碼信號而沿路徑25產生由路徑5接收之音訊資訊之 複本。複本内容可能並非與原先音訊資訊完全相同。若編 碼器10使用無耗損編碼方法來產生編碼資訊,則原則上解 碼器20可回復一複本,該複本係與原先音訊資訊流完全相 同。若編碼器10使用耗損編碼技術,例如知覺編碼來產生 15 編碼信號,則回復之複本内容並非與原先資訊流完全相 同,但就感官知覺上而言可能與原先内容無法區別。 編碼器10使用一種編碼方法來編碼各區塊之音訊資 訊,該編碼方法係回應於一組一或多個處理控制參數來編 碼。舉例言之,該編碼方法可將各區塊之時域資訊轉成頻 20 域轉換係數,以浮點形式表示轉換係數,浮點形式中一或 多個浮點尾數係關聯一個浮點指數,使用浮點指數來控制 尾數的標度及尾數的Ϊ化。此種基本辦法可用於多項前述 音訊編碼系統,包括AC-3系統及AAC系統,詳述如後。作 須了解標度因數及其用作為控制參數單純為本發明之教= 9 200534602 可能應用之範例。 通常若各個浮點轉換係數尾數係關聯其本身的指數, 由於各個尾數較可能被規度化,因此各個浮點轉換係數值 可更準確以指定之位元數表示;但若部分係數尾數共用一 5個指數,則可能一區塊的整組轉換係數可以一指定數目更 準確表示。由於共用可減少編碼指數需要之位元數,允許 更大里位元用來以較高精度表示尾數,故準確度可能增 高。若干尾數不再被規度化,但若轉換係數值類似,則較 大精度可獲得至少若干尾數之更準確表示法。於多個尾數 10間共用指數之方式可因區塊而異;或共用配置可能不變。 若指數共用配置為不變,常見共用指數,讓各個指數及其 相關尾數界定一頻率子頻帶,該頻率子頻帶係與人類聽覺 系統之臨界頻帶相稱。於此種體系,若由各個轉換係數表 示之頻率間隔為固定,則較高頻比較低頻,有較大量尾數 15 共享一個指數。 一區塊内部之各個尾數間共享浮點指數之構想可延伸 至兩個或兩個以上區塊之多個尾數間共享指物。指數共享 可減少於一編碼信號傳遞指數所需位元數目,因此額外位 元可供用來以較高精度來表示尾數。依據各區塊間之轉換 2〇係數值之類似性決定,區塊間之指數共用可增減表示尾數 之準確度。 至目前為止之討論係述及經由共用浮點指數來獲 換係數值之浮點表示準確度間之折衷。相同的準確度折衷 也出現於用來控制編碼方法之區塊間參數共用,兮等編 200534602 方法例如為知覺編碼,知覺編碼利用知覺模式來控制係數 尾數的量化。例如,AC_3系統及AAC系、统使用之編碼方法, 使用轉換係數之浮點指數來控制位元分派用於轉換係數尾 數之量化。各個區塊間之指數共用可減少表示指數所需位 5元,允許更多位元用來表示編碼尾數。若干例中,二區塊 間之4曰數共用可降低編碼尾數表示值之準轉度。其它例 中,二區塊間之共用可提高準確度。若二區塊間之指數共 用提高尾數準確度,則三區塊或三區塊以上間之共用可更 進一步提高準確度。 10 本發明之各方面經由最佳化群組數目及最佳化區塊群 組間之群組邊界,來最小化編碼信號失真,可於音訊編碼 器實作。可於最小化程度與如下一者或二者間作折衷:用 來表示一編碼信號訊框之位元總數;以及用來最小化群組 配置之技術的運算複雜度。於一實作,此種折衷可經由最 15 小化均方錯誤能測量值來達成。 Β·背景 後文討論說明,本發明之各方面可結合於一種音訊編 碼系統,該系統最佳化以訊框配置之音訊資訊區塊之群組 處理。最佳化首先係以數值最小化問題表示。此種數值架 20構係用來發展數種實作,各種實作有不同之運算複雜程 度’且提供不同的最佳化程度。 i.群組選擇為數值最小化問題 經由於訊框内部允許多個群組,允許群組於最佳化處 理方法中獲得某種自由度。為了運算最佳分組體系,假設 11 200534602 各群組數目及各區塊數目可因訊框而異。進一步假設一群 、.且係由單-區塊或多個連續區塊組成,多個連續區塊全部 白於單-祕内部。欲進行之最佳化係來於—或多種限制 之下最佳化於-訊框内部之區塊群組分組。此等限制可能 5因各種不同用途而異。舉例言之,音訊編碼器之限制為須 對經編碼信狀-指定龍速率,最小化資料速率之失 真,或-限制要求經編碼信號之資料速率相對於經編碼信 號失真程度間之折衷,而分析/檢測/分類系統之限制為:要 求分析、檢測或分類準確度對運算複雜度間作折衷。 1〇 翻本發明可根據至少三種策略之-實作,該三種策 略於音訊資訊之時域表示法及頻域表示法之使用上各異。 於第一策略,分析時域資訊,來最佳化傳遞時域資訊之區 塊群組之處理。於第二策略,分析頻域資訊,來最佳化傳 遞時域資訊之區塊群組之處理。於第三策略,分析頻域資 15訊,來最佳化傳遞頻域資訊之區塊群組之處理。根據第三 策略之各項實作說明如後。 於本發明之編碼傳輪或記錄音訊資訊之實際實作中, 定義後文討論使用之「失真」以及「側 「失真」-詞為該區塊或屬於—群組之多個區塊之頻 2〇域轉換係數之函數,失真係由該群組空間映射至非負實數 空間。零失真指定給-確切含有N群組之訊框,此處N為該 訊框之各區塊數目。本例中,各區塊間並未制控制參數。 側頻相失」3為—獨立分開之函數,側頻損失係 由非負整數集合映射至非負實數集合。後文討論中,假設 12 200534602 側頻損失為自變數x之正線性函數,此處χ卞i,以及p為一 孝之群、、且數目。若該訊框之群纟且數目等於1,則將側頻損 失為零指派給該訊框。 、兩項失真運算技術說明如後。_項技術係基於「頻帶」 5基準運算K頻帶各別之失真,此處各頻帶為—或多連續頻域 轉換係數之集合。第二技術運算跨全部頻帶之頻帶感測整 個區塊之單—失真值。定義其它名詞供後文討論之用。 頻帶失真」一凋為由低頻指向高頻之維度值向量κ。 向里中K個70體各自表示於_區塊之—或多個轉換係數 10之各別集合之失真值。 區塊失真」-詞為表示一區塊之失真值之規度數值。 則置回波失真」-詞為表示相對於若干恰顯見差異 (細)寬頻參考能臨限值,之所謂前置时失真程度之規度 值,歧低於励參考能臨限值之失真被視為不重要。 15 時間支援」為對應單-轉換係數區塊之時域樣 本程度。對Prmcen等人「使用基於時域亂真抵消之遽波器 排組設計之子頻帶/轉換編碼」,ICASSp 1987會議議事錄, 1987年5月’2161_64頁所述經修改之離散正弦轉換 (MDCT),對轉㈣數的任何修改,由於轉換加諸時域各節 20 &間之5G%重疊’影響由二連續轉換係數區塊回復之資 訊。此種MDCT之時間支援為只對應第一受影響係數區塊 之時間節段。 厂聯合通道編碼」為一種編碼技術,二或二以上音訊 資訊通道藉該聯合通道編码技街而以某種方式於編碼器曰纽 13 200534602 ^以及於解碼益分成離散通道。藉解碼器所得分開通道 可月b不同,或甚至於感官知覺上與原先通道無法區分。聯 σ通道編碼用來藉探討二通道間之交互資訊而提高編碼效 率。 5 i置回波失真係有關轉換音訊編碼系統之時域遮罩方 面的考昼,於6亥轉換音訊編碼系統中轉換之時間支援不再 為前置遮罩時間間隔。有關前置遮罩時間間隔之額外資訊 可得自Zwicker等人「心理音學_事實與模型」, P g Verlag,柏林,1990年。後述最佳化技術係假設時 1〇間支援制、於前置料_,因此只考慮客觀失真測量值。 與客觀失真測量值相對,本發明並未排除基於主觀失 真或知覺失真測量值進行最佳化的選項。特別若時間支援 係大於知覺編碼器之最佳長度,則可能均方錯誤或其它客 觀失真測量值無法準確反映出聽覺失真程度;以及可能使 15用主觀失真測量值可選定一區塊分組體系,該區塊分組體 系係與經由制客觀失真測量值所得區塊分組體系不同。 、最佳化處理可以多種不同方式設計。-種方式將p值由 1迭代至N,此處p為一訊框之群組數目;且該方式對各個p 值識別分組體系,該分組體系於該訊框全部區塊之失真和 20係不高於臨限值T。於此等識別體系,後文討論之三項技術 之-用來選擇最佳分組體系。另外,p值可以某種其它方式 測定,例如藉二通道編碼法測定,該二通道編碼法經由調 適性選擇聯合通道編碼之區職目而可最佳化編碼增益。 此種情況下,p之共通值係衍生自各通道之各別p值。假設 200534602 10 15 ^^'通道有一 算。 於 共通p值,則最佳分組體系可斜 二通道共同運 餘之各區塊之分組體系可為頻率相依性,㈣ =碼後之信號傳遞額外資訊來規定如何將頻帶分組。本 面經由考慮有共通分組資訊之頻帶為此處揭示 見頻貫作之分開例,而可應用至多頻帶實作。 2·錯誤能作為失真測量值 真内^真」已經就驅動最佳化之數量力%定義,但此失 於音訊編碼器找出最佳區境分組之方法使用 ==。需要有—_碼㈣量料值,其可對最佳 解“之道W最佳化方法。由於最佳化係針對 使用-共通控制參數集合,故經編碼信號品 =里值可基於應用至各區塊之處理,且經編瑪區塊品質 “1里值方便對該群組之全部區塊組合成為單一 複合測量值。 於一區塊群 單一代表數值或 • 叙討論之獲得複合測量值之技術,係運算該群組之 ^個區塊之數值平均,但對感興趣數值可計算有用的平 句不幸,並非全部音訊編碼可使用之數值全部皆可用來 =複數個數值計算平均。由於離散f立葉轉換(dft)相位分 20量之平均並未提供任何有意義數值,故不適合值例如為轉 換係數之離散虽立葉轉換(DFT)相位分量。另一項獲得複合 測量值之技術係對該群組之全部區塊選擇最大值。任一種 〃兄下複口 /則里值用作為參考值,編碼信號品質測量值 系此參考值與一群組之各區塊值間之距離成負相關。換 15 200534602 言之,一訊框之經編碼信號品質測量值可定義為參考值與 该吼框中全部群組之各群組之各區塊之適當值間之誤差之 倒數。 前述經編碼信號品質之測量值可用來進行最小化此測 5量值之處理而導出最佳化數值。 其它參數可能關聯多種編碼系統或關聯其它應用用 途。其中一範例為與所謂之中頻編碼/側頻編碼為其中相關 之參數,中頻編碼/側頻編碼為一種共通聯合通道編碼技 術,其中「中」頻通道為左頻與右頻之和;而「侧」頻通 1〇道為左頻與右頻之差。結合本發明之各方面之編碼系統之 實作可使用通道間交互關聯而非使用能階來控制跨區塊之 中頻/側頻編碼參數間之共用。通常,任何將區塊分組為群 組之音訊編碼器,該音訊編碼器於一群組之多個區塊間共 用編碼控制參數,且發射控制資訊給一解碼器,可由本發 7獲益’可判定該等區塊之最佳分組體系。若未由本發明 提供效益,則因位元由編碼頻譜係數轉向,位元無法於各 個頻譜係數間作最佳分派,故位元之次於最佳分派可能導 致總體可聽聞量化失真的增高。 3 ·向量能相對於量尺能 20 树明之實作可使用頻帶失真值或區塊失真值來導出 最佳化方法。是否使用頻帶失真或區塊失真有相當大程度 係依據各區塊間之頻帶能之變化而定。以如下定義··
Um為區塊m總能之量尺能值,以及 ^ ) vm,j為表示區塊m之頻帶j之頻帶能之向量元體,(化) 16 200534602 若欲編碼^號為無記憶,故 頻道之OSjSK-l,以及μ為相鄰區塊間交互資訊程度測量 值則使用ϊ尺測量值Um之系統之效果將與使用頻帶測量 值Vm,j之系統同等良好。參考Jayant等人「波形之數位編 5碼」’ PrentlCe_Ha11,紐澤西州,1984年。換言之,當連續 區塊之頻譜能階之類似性極少時,量尺能作為測量值以及 頻帶能作為測量值之效果同等良好。另一方面,如後文說 明,當連續區塊之頻譜能階有高度類似性時,量尺能無法 提供滿意測量值來指示參數是否為二區塊或二以上區塊之 1〇共通參數,而未造成編碼效能的嚴重犧牲。 本發明並非限於使用任何特定測量值,基於對數能及 其匕k號性質之失真測量值於多種用途也適合。 對有類似頻譜内容之區塊轉變,或,雖 言如此仍然可有特定頻帶能Vm,j來滿足如下表示式: 15 γ,1 ^ ^v(gvm+1,j=0 ⑺ 或等於接近零之小數值。此種結果說明下述事實,基於寬 頻’相鄰區塊間之總能比較可忽略各別頻帶之區塊間之差 異。對多種信號而言,能量之量尺測量值不足以準確最小 化失真。原因在於對寬廣多種音訊信號而言,後述本發明 2〇之實作係使用頻帶能向量值Vm=(Vi,〇,…,vi K-1),替代量尺區 塊能值um來識別最佳分組體系。 4·限制之識別 基於採用本發明之應用用途,有多種限制需要考量。 17 200534602 後文描述树明之實料—種音l 制為音訊資訊編碼之相關參數。=因此相關限 仙失允销㈣塊以較低失真編竭,但若有固定位元數 須分派給各個贿,咖頻敎增加可能增加—铺之入 部區塊的總失真。也可能對實作複雜度加諸聞,而該= 制對本發明之-特定實作比另—實作更有利。 5 ·問題陳述導衍
以下為於一音訊編碼系統最佳化失真之數值問題定 10義。於本特殊問題定義,失真為一候選區塊群組之一訊框 之頻譜係數能與一訊框之各別區塊之頻譜係數能間之誤差 能測量值,此處各個區塊係於其本身之群組。 假設一個N頻帶能向量之有序集合,〇^i<N,此處各個 向量為有實數正元體之維度K向量,亦即 15 νθ{νί,〇,…,vm}。符號Vi表示頻帶能值向量,此處該向量 之各個元體係對應於大致上任何期望之轉換係數頻帶。對 任何正整數之有序集合而言,可定義間隔 Im為Im=[sm_i,sm],Vm,0<m<p。符號Sm表示於各群組之第 一區塊之區塊指數,m為群組指數。sP值=N可視為次一訊 2〇框之第一區塊指標,單純用來界定間隔Im之終點。可疋義 能向量集合之區間P(S〇,...,SP)如後: PCSHGo^.^Gp.O (3) 此處S為向量(s〇,...,sp)以及 Gm={Vi |iElm} (4) 18 200534602 符號Gm表示一群組之區塊。 平均最大失 若干失真測量值可用於本發明之各實作 真測量值M,定義如後·· (5) ⑸x(v j=〇 ieG„ ⑹ ⑺ m=i 平均失真A定義如後:
(Sm-Sm_Ji Σ’ ij
A(s) = ^Kf(m) m=l 最大差分失真m”定義如後: j=0 ⑻ (9) (10) (11)
Mls)=Xr(m) (12) m=l 區間P(S)=P(S〇,".,Sp)之側頻損失函數定義為等於(p-l)c,此 15 處C為正實數常數。 另外兩項失真函數定義如後·· M*(S)=M(S)+Dist{(p-l)c} (13) 19 200534602 A*(S)=A(S)+Dist{(p-l)c} (14) 此處M(S)為M’(S)或M,,(S)以及
Dist{}係映射來表示與失真相同單元之側頻損失。 M(S)函數可根據用來找出最佳解的搜尋演繹法則而選 5定。將於後文進一步討論。Dist{}函數用來將側頻損失映射 至可與M(S)及A(S)相容之值。於某些編碼系統,由側頻損 失映射至失真之適當映射函數為 Dist{C}=6.02 dB-C 此處C為以位元表示之側頻損失。 10 最佳化可對如下數值問題公式化:測定有正整數元體 (S〇,Si,...,Sp)之向重S ’其可對全部滿足關係式 0=S〇<Si〈…<Sp=N(此處Κρ<Ν)之正整數s〇,Si,…,Sp的全部可 能選擇,最小化特定失真函數M(S)、M*(S)、A(s)或A*(s)。 變數p可選自1至N之範圍,來找出可最小化期望失真函數之 15 向量S。 另外,最佳化可對使用臨限值之數值問題公式化:對 全部p(lSpSN)之整數值決定向量SKsoA,·.^),該向量滿 足關係式0=s〇<s1<".<Sp=N,因此預定失真函數m(s)、 M*(S)、A(S)或A*(S)之數值係低於假設之臨限值T。由此等 20 向量,找出一個具有最小P值之向量S。此種辦法之替代之 道係迭代而將p值由1增至N,選擇可滿足臨限值限制的第一 向量S。此種辦法容後詳述。 6·多通道系統之其它考量 對採用聯合-立體/多重通道編碼方法之立體編碼系統 20 200534602 或多重通道編碼系統,例如AC-3系統使用之通道耦合、以 及AAC系統使用之中頻/側頻立體編碼或強度立體編碼而 言,全部通道之音訊資訊須對該特定編碼系統之適當短區 塊模式編碼’確保全部通道之音訊資訊皆有相同群組數目 5及相同分組體系。適用此項限制的原因在於側頻損失主要 來源之規度因數只提供給聯合編碼通道中之一個通道。如 此暗示全部通道皆有相同分組體系,原因在於一個規度因 數集合適用於全部通道之故。 於多重通道編碼系統,最佳化可以至少三種方式之任 1〇 一種實施:一種方式稱作「聯合通道最佳化」,該方式係於 一次通過,經由加總跨各通道之誤差能(分頻能或寬頻能) 而聯合最佳化群組數目及群組邊界。 另種方式稱作為「巢套式迴圈通道最佳化」,該方式 係經由將聯合通道最佳化實作為巢套式迴圈處理進行,此 I5處外迴圈麵算全料道之最佳群組數目。考慮於聯合-立 體編碼模式之二通道,内迴圈進行一指定群組數目之理想 分組體系之最佳化。此種辦法之主要限制為内迴圈進行之 處理係對全部聯合編碼通道使用相同P值。 又另-種方式稱作為「各卿道最佳化」,該方式係經 由對各通道於全部其它通道獨立無關,最佳化分組體系而 進行。並無任何聯合通道編碼技術可用來編碼—訊框中有 獨特P值或有獨特分組體系之任何通道。 7·進行限制最佳化之方法 本發明大致上可使用任-種搜尋最佳解之期望方法。 21 200534602 此處說明三種方法。 「耗盡搜尋法」該方法為運管 -種辦法係對全㈣__目圭解。 5 10 ::::分_技術失真;對各4 ,刀、、且體系,以及然後經由選擇具有最 :目來決定最佳群組數目。另外’該方法可比較任;: 量值失真與臨限值,找出第—分乡且體系,其失真測 ,值係低於臨限值後結束搜尋。此種替代實作方法,可減 ^搜尋來找出可接受的解讀尋運算_度,但無法確保 找到最佳解。 ” 八 貪婪合併方法」之運算密集程度不如耗盡搜尋法, 貪婪合併法無法確保找到最佳分組體系,但通常係找到如 同最佳體系般良好或接近同等良好的分組體系。根據此種 方去,相鄰區塊被迭代組合成為群組同時考慮側頻損失。 15 〜、 快速最佳方法」具有運算複雜度係介於前述另兩種 方法之運算複雜度之間。此種迭代方法可避免考慮某些分 組體系,該等分組體系係基於早期運算之失真計算進行分 級。類似耗盡搜尋法,考慮全部分組體系,但鑑於先前運 算,某些分組體系之考量可由隨後之迭代中去除。 2〇 〇 ^ ^ •衫響側頻損失之參數 較佳當本發明之實作搜尋最佳分組體系時,考慮側頻 才貝失變化。 AAC系統之側頻損失之主要成分為表示規度因數值所 需資訊。因規度因數為跨一群組的全部區塊所共用,故將 22 200534602 一新群組加人AAC編碼n,將增力,損失達表示額外規 度因數所需之額外資訊量。若於AAC編碼器之本發明之實 作確實考慮側頻損失變化,則此考量須使㈣值,在 於至速率失真顧計算完狀前缺得知規度因數值,兮 計异必須於分組體线立後進行。AAC系狀規度因數高 度:變,其數值係與頻譜係數之量化解析度有緊密關聯, 頻譜係數之量化解析度係於巢套速率/失真迴圈時測定 頻 AAC系統之規度因數也經過熵編碼,更進—步促成其側 損失之不確定性。 八 纟它湖損失形故據絲編碼音財訊之特定編碼 方法為可能。例如於AC_3系統,通道輕合座標可跨多個區 塊間共用,因而有利於根據共通能值來對座標進行分組。 本發明之各方面適用於AC-3系統方法,其選擇用來傳 輸於編碼信號之轉換係數指數之「指數編碼策略」。因ac_3 15指數被取作為共用一指定指數之全部頻譜線之功率頻譜密 度值之最大值,故最佳化方法可使用最大錯誤標準操作, 來替代於AAC系統使用之均方誤差標準。於ac_3系統,側 頻損失為對各個未再使用來自前一區塊之新區塊,傳遞指 數所需> ΐ。若指數編碼策略係依據分組體系決定,則 20指數編碼策略也影響側頻損失,也決定跨各頻率各係數如 何共用指數。於AC-3系統估計指數之側頻損失所需方法比 於AAC系統提供規度因數估值所需方法較不複雜,原因在 於指數值係早期於編碼處理作為心理聲學模式之一部分運 算。 23 200534602 C·搜尋方法之詳細說明 1.耗盡搜尋方法 耗m搜哥方法可使用臨限值實作,來限制分組體系數 目及接受測試之群組數目。此項技術可藉由排它地仰賴臨 5限值來設定實際p值加以簡化。其進行方式係將臨限值設定 為0·0至1.0間之某個數目,於可能之群組數目p迭代。最佳 分組體系及結果所得失真函數對p==1運算,每次與丁作比較 時將P遞增1。所得失真與Τ作比較,失真函數小於丁之第一 個P值,選作為最佳群組數目。經由實驗設定臨限值丁,對 10寬廣多種不同輸入信號跨大量短窗訊框取樣,可達成p之高 斯分佈。經由設定T值允許於寬廣多種輸入信號有較高或較 低P平均值,可遷移高斯分佈。此種方法顯示於第2圖之流 程圖,其顯示於外迴圈找出最佳群組數目之方法。適當内 迴圈方法顯示於第3A圖及第3B圖,討論如後。此處所述任 15 一種失真函數皆可使用,包括函數M(S)、M*(S)、A(S)及 A*(S)。 經由迭代外迴圈測疋P值’對一指定ρ值,内迴圈運算 可達成最小量均方誤差失真之最佳分組體系 SKsoA,…,sP)。對小於10之N小值而言,可建立一組表分 20 錄,其含有跨N個區塊區隔P組的全部可能之區隔方式。各 個表分錄長度為一次7選(p-Ι)的組合數目,後文表示為「7 選p-Ι」。全部P值皆有個分開的表分錄,但p=〇除外,未 經界定,以及p=N除外,P=N獲得無失真解,此處各個群組 確切含有一個區塊。對〇<P<N而言,較佳表實作健存 24 200534602 S-{s^s^.^sp}之區隔值作為表tab之位元攔位,以及於内 組合迴圈處理,遮罩TAB位元攔位值,獲得各個Sm之絕對 值。0<ρ<Ν之位元欄位之區隔值如後: 群組邊界 破目(P-1) 表長度 (7選卜1) S^S^.^Sim組合(以位元攔位形式) 1 7 1,2,4,8,16,32,64 2 21 3,5,6,9,10,12,17,18,20,24,33,34,36,40,48, 65,66,68,72,80,96 3 35 7,11,13,14,19,21,22,25,26,28,35,37,38,41, 42,44,49,50,52,56,67,69,70,73,74,76,81,82, 84,88,97,98,00,104,112 4 35 巧,23,27,29,30,39,43,45,46,51,53,54,57,58, 60,71,75,77,78,83,85,86,89,90,92,99,101, 102,105,106,108,113,114,116,120 5 21 31,47,55,59,61,62,79,87,91,93,94,103,107, 109,110,115,117,118,121,122,124 6 7 63,95,111,119,123,125,126 127 表1· N=8之全部可能群組組合 10 表中之各分錄或各列係對應不同P值,〇<p<N,㈣。 表可用於迭代方法,例如第3A圖及第3B圖之邏輯流程圖 =示之迭代方法,其為第2圖所示方法之内迴圈。此内迴圈 ^料能之群組體系迭代,群組體系之數目為(7選P-1)。 ° ^圖中TAB[p,r]表示法所述,由外迴圈提供之p值指示 “歹〗Γ值指示特定分組組合之位元襴位。 對各個内迴圈迭代而言,如第3續所示平 值A(S),或另外如第3Β圖所示 ^ 里 過力ΓΓ 幻2運算。較娜之總失真經 ° 〇、、、心來獲得單一規度值Asav,或另外獲得Msav。 / 25 200534602 耗盡搜尋法可使用多種失真測量值。例如前文討論之 實作使用L1範數,但另外也可使用L2反數或L無限大範數 測量值。參考R. M. Gray,A. Buzo, Α· H· Gray,Jr.,「言語處 理之失真測量」,IEEE聲學、言語及信號處理會刊,ASSP-28 5 卷,第4期,1980年8月。 2.快速最佳方法 快速最佳方法使用如上方程式7定義之平均最大失真 M’(S)。此種方法使用最佳分組體系,而無需耗盡搜尋全部 可能解。結果並非如前文討論之耗盡搜尋方法般運算密集。 10 a)定義 區隔P(S〇,...,Sp)若由P群組組成,則稱作為P級區隔。p 群組之維度d為該群組之區塊數目。維度大於i之群組稱作 為正群組。方程式4表示之群組&定義被改 Gm=G(Sm小Sm_1 + 1,…,Sm)。 .、、、為 15 b)數學預備 4料d>3之群組可分成二子群組,二子群組卜 -個共通區塊。例如机,“…,·,: 群組Gm可分成二子群^ ,^,則 20 ma 0(“-1 + 1,..人措)及 * (Sm-1+k”..,Sm)皆含有具有指數Smi+k之區塊。於 :群無法成為同-區隔的-部分。將-群組二成 為二重逢子群組之程序可普遍化成為—種程序。成 定群組分誠為n上之正重疊子群組。夺—指 主張如上方程式6定義之失真測量值J,㈣經常性滿足如下 26 200534602 J?(m)>J5(ma)+J5(mb) (i 5) 此處Gma及Gmb為群組Gm之重疊子群組。經由顯示
Jm,AmaX(Jma,j,Jmb,j)(1來k)對全部j(1來k)皆為真獲得證實。 經由將此關係式插入方程式6所示Γ⑽定義,可見符合表示 5 式 15。
10 15
。了解&速最佳方法之潛在原理,首先假設一指定ρ 級區隔ΡΡ,Ρ級區隔Ρρ對全部級區隔的向量(Up), 最J ΚΜ (S) M (Sl,...,Sp)。有ρ-1級區隔F,其與頻譜係數 特定值無關,無法成為p]級獨特區隔Ρρ·ι,該獨特區隔對 全:定義ίΜ級區隔之向量%,·.»最小化M,(si,...,sp)。 、口之右此等區隔F之一對全部定義p]級區隔之向量$, 最小化M’⑻,則對全部定義P-1級區隔之向量S也至少有另 一個區隔可最小化M”⑻。可定義該等區隔F之子集,表示 為x(P,P) ’其含有P級特殊區隔可由找出最佳解所需之若干 處理排除,容後詳述。子集x(p,p)定義如後:
⑴假設P]級區隔咖個正群組,以及此區隔之m個正群組(0<_)分別由另一組有相同尺寸之正群組所替代,於 #代後區mF轉換成為不含重疊群組之μ級區隔&若區隔Ρ正群組為區隔G正群組之子集,但非區隔F之正群組之 子集,則F屬於x(p,p)。 =又!Μ級區隔·個正群組,以及卿 =分r或二以上正群組。又假設-或多正群組可由 有相同尺寸之群_代,叹轉換區隔F成Μ含重疊群組 27 200534602 之p-1級有效區隔G。若區隔p之正群組為區 子集,但非區隔F之正群組之子集,貝 之正群組之 主張,F屬於X(p,P)。 、乂 式B所做的 經由組構,集合X(P,P)不可能與全部p 同,指出此點可能有幫助。 匕隔集合相 d)—般案例(N任意) l〇 15 2〇 快速最佳方法始於將—訊框之贿塊區隔成為㈣群 組,以及#平均最大失真函數M,⑻或M*⑻。此區 示為Pn。然後該方法對卿區塊區隔成為g=N·!群组的 Μ種可能方式,算出平均最大失真函數。最小化平均最1 失真函數之W區隔中之該特定區隔標示為Pni。屬於集合 XW-l’Pw)之區隔係如前述識別。然後該方法對將n區塊區 隔成為N_1個不屬於集合孙咕丨)之群組之全部可能方 式’計算平均最大失真函數。最小化平均最大失真函數之 區隔標示為PN-2。快速最佳方法對产似,…,!送代此種處理 過程,來找出區隔ΡΐΜ,該快速最佳方法於各級使用集合 Χ(ρ,ΡΡ)來減少被分析作為可能解的區隔數目。 决速最佳方法之結論為於區隔Ρΐ,···,ΡΝ申找出可最小 化亥平均最大失真函數M’(S)或M*(S)之該區隔ρ。 e)實施例 如下實施例提供來輔助說明快速最佳方法,以及陳述 可能實作之特色。本實施例中,各個訊框含有6區塊或 N-6。一控制表集合用來簡化判定如前文說明,一個區隔 疋否應添加至集合χ(ρ,Ρρ)所需的處理。對本實施例顯示表 28 200534602 集合,亦即表2A至表2C。 此等表中表示相D(a,b)用來識別特定區隔。一區隔係由 一或多個區塊群組組成,一區隔可由其所含之正群組獨特 載明。舉例g之’一個六區塊區隔係由四群組組成,其中 5第一群組含有區塊1及2,第二群組含有區塊3及4,第三群 組έ有區塊5,以及第四群組含有區塊6,該六區塊區隔可 表示為(1,2)(3,4)(5)(6),於表中顯示為d(1,2)+D(3,4)。 各表提供資訊,可用來判定當於p級處理特殊區隔Pp 時,於p-1級之特殊區隔是否屬於集合χ(ρ,Ρρ)。例如表2a 10提供判定於4級之一區隔是否屬於表上列所示各個5級區隔 之集合X(H)之相關資訊。例如,表2A上列列舉由5群組 組成的區隔。並未列舉全部區隔。本實施例中,包括五組 之全部區隔為D(l,2)、D(2,3)、D(3,4)、D(4,5)及D(5,6)。於 表上列只顯示區隔D(l,2)、D(2,3)及D(3,4)。消失的區隔 15 〇(4,5)及]0(5,6)分別係與區隔〇(2,3)及〇(152)對稱,且可由區 隔D(2,3)及D(l,2)導出。表2A左行顯示由4群組組成之區 隔。各表所示符號「Y」及rN」顯示是(Γγ」)否(「N」) 於左行所示於p-1級之該區隔是否由表中該行之上列所示 各別區隔Pp之進一步處理中排除。例如參照表2A,第5級區 20隔DG,2)於第4級區隔D(2,3,4)該列有「N」登錄,指示區隔 D(2,3,4)係屬於集合父以以丨力),必須由進一步處理中排 除。第5級區隔D(2,3)於第4級區隔d(2,3,4)該列有「γ」登 錄,指示第4級區隔不屬於集合X(5,D(2,3))。 本例中,實作快速最佳方法之處理將一訊框的6個區塊 29 200534602 區隔成為6個群組’以及計算平均最大失真。該區隔表示為 、Λ處理對將6區塊區隔成為5群組的5種全部可能方 式,計算平均最大失真。最小化平均最大失真之5個區隔中 5之該區隔標示為Ρ5。 忒處理方法參照表2Α,選擇其頂登錄規定區隔I之分 組體系之該行。該處理對將6區塊區隔成為4群組,於選定 該仃有「Υ」登錄之全部可能方式,計算平均最大失真。最 小化平均最大失真之該區隔標示為Ρ4。 W亥處理方法參照表2Β,選擇其頂登錄規定區隔Ρ4之分 組體系之該行。該處理對將6區塊區隔成為3群組,於選定 该仃有「Υ」登錄之全部可能方式,計算平均最大失真。最 小化平均最大失真之該區隔標示為ρ3。 該處理方法參照表2C,選擇其頂登錄規定區隔ρ3之分 組體系之該行。該處理對將6區塊區隔成為數群組,於選定 忒仃有「Υ」登錄之全部可能方式,計算平均最大失真。最 小化平均最大失真之該區隔標示為ρ2。 該處理對於一群組組成之該區隔計算平均最大失真。 此區隔標示為Pi。 2〇 處理識別於區隔Ρ1,.··,Ρ6中有最小平均最大失真之該 區隔Ρ。此區隔ρ提供最佳分組體系。 30 200534602
p=5 D(l,2) D(2,3) D(3,4) D(l,2)+D(3,4) Y Y Y D(l,2)+D(4,5) Y N N D(l,2)+D(5,6) Y N N D(2,3)+D(4,5) N Y Y D(2,3)+D(5,6) N Y N D(3,4)+D(5,6) N N Y D(l,2,3) Y Y N D(2,3,4) N Y Y D(3,4,5) N N Y D(4,5,6) N N N 表2A. p=5之快速最佳群組消去表
p=4 D(l,2)+ D(3,4) D(l,2)+ D(4,5) D(l,2)+ D(5,6) D(2,3)+ D(4,5) D(l,2,3) D(2,3,4) D(3,4,5,6) Y Y Y Y N N D(2,3)+D(4,5,6) N Y Y Y Y Y D(2,3,4)+D(5,6) Y Y N Y N Y D(2,3,4,5) Y Y N Y N Y D(l,2)+D(4,5,6) N Y Y Y Y Y D(l,2)+D(3,4)+D(5,6) Y Y Y Y Y Y D(l,2)+D(3,4,5) Y Y N Y Y Y D(l,2,3)+D(5,6) Y Y Y Y Y N D(l,2,3,4) Y Y N Y Y Y D(l,2,3)+D(4,5) Y Y Y Y Y Y 表2B. p=4之快速最佳群組消去表 31 5 200534602 P=3 D(l,2,3,4) 0(2,3,4,5) """"------ U(l,2)+ Y Y --- Υ 〇(1,2)+ 』(4,5,6) 〇(2,3)+ D(4,5,6) +〇(5,6); D(l,2,3,4,5) D(l,2,3,4)+D(5?6) Y — Y Υ Υ Υ 〜—--- Υ Υ D(l,2,3)+D(4,5,6) Y Y Υ Υ Υ D(l,2)+D(3,4,5,6) -——~_ Y Y Υ Υ Υ γ D(2,3,4,5,6) N ----- — Υ Υ Υ Υ 表2C. p =3之快速最佳群組消去表 -—_ 3·貪婪合併說明 5 #婪合併方法提供將―訊框之各悔塊區隔成為群《且 之簡化技術。雖然貪婪合併方法並不保證可找到最佳分址 體系,但藉本方法提供運算複雜度的減低俾用於大部分實 際用途之可能最理想的減低更令人滿意。 貪婪合併方法可使用寬廣多種失真測量函數,包括前 10文討論之方法。較佳實作係使用表示式u❹之函數。 第4圖顯示適當貪婪合併方法之流程圖,㈣如後:對 各個區塊i求出为頻帶能向量%。形成一集合N群組,各自 有:個區塊然後该方法測試全部N_1相鄰成對群組,找出 可最小化方程式11之二相鄰群組g&g+1。得自方程式丨丨之 15 J最小值標示為q。然後最小值q與失真臨限值T比較。若最 小值q係大於臨限值T,卿方法結束,目前分組體系被識 別為最佳體系或接近最佳體系。若最小值小於臨限值τ,則 二群組g及g+Ι合併成為一個新群組,含有該二群組8及計1 之分頻帶能向量。此種方法迭代至全部成對相鄰群組之失 20真測量值J”超過失真臨限值τ為止,或迭代至全部區塊已經 32 200534602 3併成為一個群組為止。 本方法以4區塊之訊框操作方式範例顯示於第5圖。本 例中,4區塊初步排列成為4群組a、b、c及d,各群組各有 s P區塊。然後該方法找出可最小化方程式11之二相鄰群 、、於第迭代,邊方法找出群組b&c可最小化方程式η, 失真測量值J”係小於失真臨限值τ; _該方法將群組 合併成為新群組來獲得三群組a、bc&d。於第二迭代,該 方法找出相鄰二群組a及bc可最小化方程式丨丨,此對群組之 失真測量值J”係小於臨限值T。群組a與群組bc合併成為新 群組共獲付一群組abc及d。於第三迭代,該方法找出對唯 剩餘該對群組之失真測量值j”係大於失真臨限值T ;故該 方法結束,留下最終二群組abc及d作為最佳分組體系或近 最佳分組體系。 貪婪合併方法之運算複雜度實際等級係依據於超過臨 15 限值之前,該方法必須迭代的次數決定;但迭代數目限於! 至 1/2Ν·(Ν-1)之間。 實作 結合本發明之各方面之裝置可以多種方式實作,包括 藉電腦或若干其它裝置來執行軟體,若干其它裝置包括更 20 特殊構件,例如數位信號處理器(DSP)電路耦合至類似通用 用途電腦之構件。第6圖為可用來實作本發明之各方面之裝 置70之示意方塊圖。DSP 72提供運算元。RAM 73為DSP 72 用於處理之系統隨機存取記憶體(RAM)。ROM 74表示某種 形式之持續性儲存裝置,例如唯讀記憶體(ROM)用來儲存 33 200534602 操作裝置70需要的程式,且可進行本發明之各方面。I/O控 制器75表示藉通訊通道76、77來接收與發射信號之介面電 路。於所示具體例,全部主要系統構件皆係連結至匯流排 71 ’其可表示多於一個物理匯流排或邏輯匯流排;但本發 5明之實作無需匯流排架構。 於藉通用用途電腦系統實作之具體例中,可含括額外 構件來介面至鍵盤或滑鼠及顯示器等裝置,以及用來控制 有儲存媒體如磁帶或磁碟或光學媒體之儲存裝置。儲存媒 體可用來記錄操作系統、工具及應用用途之指令程式,儲 10存媒體可包括實作本發明之各方面之程式。 實施本發明之各方面所需功能可藉以多種不同方式實 作之構件進行,構件包括離散邏輯構件、積體電路、一或 多個ASICs及/或程式控制處理器。此等構件之實作方式對 本發明而言並不重要。 15 本發明之軟體實作可藉多種機器可讀取媒體傳遞,例 如基頻或整個頻譜包括由超音波頻率至紫外光頻率之經調 變之通訊路徑,或使用大致任一種記錄技術傳遞資訊之儲 存媒體,包括磁帶、磁卡或磁碟、光卡或光碟以及於包括 紙張的媒體上之可檢測記號。 20 【圖式簡單說明】 統 第1圖為可結合本發明之各方面之—種音訊編碼系 之方塊圖。 ’' 第2圖為於迭代處理用以找出於一訊框之區塊 最佳數目之外迴圈流程圖。 34 200534602 第3A圖及第3B圖為於迭代處理用以找出於一訊框之 最佳區塊分組之内迴圈流程圖。 第4圖為貪婪合併方法之流程圖。 第5圖為構想方塊圖,顯示應用至4區塊之貪婪合併方 5 法之範例。 第6圖為可用來實作本發明之各方面之裝置之示意方 塊圖。 ❿ 【主要元件符號說明】 5...路徑 71...匯流排 10...編碼 72...DSP,數位信號處理器 15...路徑 73...RAM,隨機存取記憶體 20...解碼器 74…ROM,唯讀記憶體 25...路徑 75... I/O控制器 70…裝置 76、77…通訊通道 35

Claims (1)

  1. 200534602 十、申請專利範圍: 1. 一種處理以訊框配置之音訊資訊區塊之方法,各個區塊 具有表示音訊資訊之各別時間間隔之内容,其中該方法 包含: 5 (a)接收一傳遞該音訊資訊區塊之輸入信號; (b)獲得二或二以上品質測量值,其中 (1) 各個品質測量值係關聯於一各別訊框之一區 塊群組集合, (2) 各群組有一或多個區塊, 10 (3)各別群組集合包括於各別訊框之全部區塊, 因此並無任何區塊被含括於各別集合中之多於一個群 組,以及 (4)關聯一各別群組集合之品質測量值表示根據 各別處理參數集合,處理於各別集合之一各別群組之各 15 個區塊所得結果之品質, (C)分析該品質測量值來識別一具有最少群組數目 之選定群組集合,讓相關品質測量值係高於臨限值;以 及 (d)根據各別處理參數集合,處理於該選定音訊資訊 20 區塊集合中之各區塊群組,來產生一表示該輸入信號内 容之輸出信號,且該輸出信號表示對該選定集合之各群 組之各別處理參數集合。 2. 如申請專利範圍第1項之方法,其中該等區塊包含音訊 資訊之時域樣本。 36 200534602 3. 如申請專利範圍第1項之方法,其中該等區塊包含音訊 資訊之頻域係數。 4. 如申請專利範圍第1項之方法,其中該品質測量值及損 失測量值係於一次迭代處理分析,由該處理之一次迭代 5 分析中,排除於該處理之前一次迭代中判定非屬該選定 集合候選者之群組集合。 5. 如申請專利範圍第1項之方法,其中該品質測量值及損 失測量值係於一次迭代程序分析,該程序包含: 對原始群組集合之成對群組,決定品質測量值; 10 合併有最低品質測量值之該對群組,來形成一經修 訂之群組集合,但規定該最低品質測量值係低於臨限 值,以及對該修訂後之群組集合之成對群組,測定品質 測量值;以及 繼續合併直到於經修訂之群組集合中不再有成對 15 群組具有品質測量值係低於臨限值為止,其中該經修訂 之群組集合為該選定集合。 6. 如申請專利範圍第1項之方法,其中該損失測量值係回 應於表示於經編碼信號之處理參數所需資料量。 7. 如申請專利範圍第1項之方法,其中該損失測量值係回 20 應於處理音訊資訊區塊所需運算資源量。 8. —種處理以訊框配置之音訊資訊區塊之裝置,各個區塊 具有表示音訊資訊之各別時間間隔之内容,其中該裝置 包含: 接收裝置,其係用以接收一傳遞該音訊資訊區塊之 37 200534602 輸入信號; 以獲得二或二以上品質測量值 獲得裝置,其係用 其中 雜 H貝测里值係關聯於-各別訊框之-區塊 辟組集合, (2)各群組有—或多個區塊, )各別群、,且集合包括於各別訊框之全部區塊 ,因此
    10 15
    20 ^何區塊被含括於各別集合中之多於-個群組,以 (4)關聯—各別群組集合之品質測量值表示根據各 ^理參數集合,處理於各別集合之—各別群組之各個 區塊所得結果之品質; 了析裳置’其係用以分析該品質測量值來識別一具 有最》群組數目之選定群組集合,讓相關品質測量值係 高於臨限值;以及 處理裝置,其係用以根據各別處理參數集合,處理 亥選疋音訊資訊區塊集合中之各區塊群組,來產生一 A °亥輪入jg號内谷之輸出信號,且該輸出信號表示對 "亥選疋集合之各群組之各別處理參數集合。 •如申請專利範圍第8項之裝置,其中該等區塊包含音訊 資訊之時域樣本。 10·如申請專利範圍第8項之裝置,其中該等區塊包含音訊 身訊之頻域係數。 lh如申請專利範圍第8項之裝置,其中該分析裝置迭代分 38 200534602 析品質測量值及損失測量值,以及由一次迭代中排除於 前一次迭代判定非為該選定集合之候選者之該等群組 集合。 12. 如申請專利範圍第8項之裝置,其中該分析裝置係經由 5 下列方式分析品質測量值及損失測量值: 對原始群組集合之成對群組,決定品質測量值; 合併有最低品質測量值之該對群組,來形成一經修 訂之群組集合,但規定該最低品質測量值係低於臨限 值,以及對該修訂後之群組集合之成對群組,測定品質 10 測量值;以及 繼續合併直到於經修訂之群組集合中不再有成對 群組具有品質測量值係低於臨限值為止,其中該經修訂 之群組集合為該選定集合。 13. 如申請專利範圍第8項之裝置,其中該損失測量值係回 15 應於表示於經編碼信號之處理參數所需資料量。 14. 如申請專利範圍第8項之裝置,其中該損失測量值係回 應於處理音訊資訊區塊所需運算資源量。 15. —種傳遞一指令程式之媒體,該指令程式可藉一裝置執 行來進行一種處理以訊框配置之音訊資訊區塊之方 20 法,各個區塊具有表示音訊資訊之各別時間間隔之内 容,其中該方法包含: (a) 接收一傳遞該音訊資訊區塊之輸入信號; (b) 獲得二或二以上品質測量值,其中 (1)各個品質測量值係關聯於一各別訊框之一區 39 200534602 塊群組集合, (2) 各群組有一或多個區塊, (3) 各別群組集合包括於各別訊框之全部區塊, 因此並無任何區塊被含括於各別集合中之多於一個群 5 組,以及 (4) 關聯一各別群組集合之品質測量值表示根據 各別處理參數集合,處理於各別集合之一各別群組之各 個區塊所得結果之品質; (C)分析該品質測量值來識別一具有最少群組數目 10 之選定群組集合,讓相關品質測量值係高於臨限值;以 及 (d)根據各別處理參數集合,處理於該選定音訊資訊 區塊集合中之各區塊群組,來產生一表示該輸入信號内 容之輸出信號,且該輸出信號表示對該選定集合之各群 15 組之各別處理參數集合。 16. 如申請專利範圍第15項之媒體,其中該等區塊包含音訊 資訊之時域樣本。 17. 如申請專利範圍第15項之媒體,其中該等區塊包含音訊 資訊之頻域係數。 20 18.如申請專利範圍第15項之媒體,其中該品質測量值及損 失測量值係於一次迭代處理分析,由該處理之一次迭代 分析中,排除於該處理之前一次迭代中判定非屬該選定 集合候選者之群組集合。 19.如申請專利範圍第15項之媒體,其中該品質測量值及損 40 200534602 失測量值係於一次迭代程序分析,該程序包含: 對原始群組集合之成對群組,決定品質測量值; 合併有最低品質測量值之該對群組,來形成一經修 訂之群組集合,但規定該最低品質測量值係低於臨限 5 值,以及對該修訂後之群組集合之成對群組,測定品質 測量值;以及 繼續合併直到於經修訂之群組集合中不再有成對 群組具有品質測量值係低於臨限值為止,其中該經修訂 之群組集合為該選定集合。 10 20.如申請專利範圍第15項之媒體,其中該損失測量值係回 應於表示於經編碼信號之處理參數所需資料量。 21.如申請專利範圍第15項之媒體,其中該損失測量值係回 應於處理音訊資訊區塊所需運算資源量。 41
TW094101656A 2004-01-20 2005-01-20 Encoding blocks of audio information arranged in frames with constrained optimization of segmenting the frames into groups of blocks TW200534602A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US53798404P 2004-01-20 2004-01-20

Publications (1)

Publication Number Publication Date
TW200534602A true TW200534602A (en) 2005-10-16

Family

ID=34807152

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094101656A TW200534602A (en) 2004-01-20 2005-01-20 Encoding blocks of audio information arranged in frames with constrained optimization of segmenting the frames into groups of blocks

Country Status (16)

Country Link
US (1) US7840410B2 (zh)
EP (1) EP1706866B1 (zh)
JP (1) JP5069909B2 (zh)
KR (1) KR20060131798A (zh)
CN (1) CN1910656B (zh)
AT (1) ATE389932T1 (zh)
AU (1) AU2005207596A1 (zh)
CA (1) CA2552881A1 (zh)
DE (1) DE602005005441T2 (zh)
DK (1) DK1706866T3 (zh)
ES (1) ES2299998T3 (zh)
HK (1) HK1091024A1 (zh)
IL (1) IL176483A0 (zh)
PL (1) PL1706866T3 (zh)
TW (1) TW200534602A (zh)
WO (1) WO2005071667A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8154554B1 (en) * 2006-07-28 2012-04-10 Nvidia Corporation Unified assembly instruction set for graphics processing
US8396119B1 (en) * 2009-09-30 2013-03-12 Ambarella, Inc. Data sample compression and decompression using randomized quantization bins
EP3723090B1 (en) 2009-10-21 2021-12-15 Dolby International AB Oversampling in a combined transposer filter bank
JP2013050663A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 多チャネル音響符号化装置およびそのプログラム
CN106941004B (zh) * 2012-07-13 2021-05-18 华为技术有限公司 音频信号的比特分配的方法和装置
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP2993665A1 (en) * 2014-09-02 2016-03-09 Thomson Licensing Method and apparatus for coding or decoding subband configuration data for subband groups
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
WO2017027308A1 (en) 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
WO2020077046A1 (en) * 2018-10-10 2020-04-16 Accusonus, Inc. Method and system for processing audio stems

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
KR100312664B1 (ko) * 1991-03-29 2002-12-26 소니 가부시끼 가이샤 디지탈신호부호화방법
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP3597750B2 (ja) * 2000-04-11 2004-12-08 松下電器産業株式会社 グループ化方法及びグループ化装置
JP4635400B2 (ja) * 2001-09-27 2011-02-23 パナソニック株式会社 オーディオ信号符号化方法
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
JP3984468B2 (ja) * 2001-12-14 2007-10-03 松下電器産業株式会社 符号化装置、復号化装置及び符号化方法
JP4272897B2 (ja) * 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
JP2003338998A (ja) * 2002-05-22 2003-11-28 Casio Comput Co Ltd 画像保存システム、及び画像保存装置
JP4062971B2 (ja) * 2002-05-27 2008-03-19 松下電器産業株式会社 オーディオ信号符号化方法
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
JP2005165056A (ja) * 2003-12-03 2005-06-23 Canon Inc オーディオ信号符号化装置及び方法

Also Published As

Publication number Publication date
CA2552881A1 (en) 2005-08-04
HK1091024A1 (en) 2007-01-05
DE602005005441D1 (de) 2008-04-30
CN1910656A (zh) 2007-02-07
KR20060131798A (ko) 2006-12-20
ES2299998T3 (es) 2008-06-01
EP1706866A1 (en) 2006-10-04
US20080133246A1 (en) 2008-06-05
ATE389932T1 (de) 2008-04-15
IL176483A0 (en) 2006-10-05
JP2007523366A (ja) 2007-08-16
WO2005071667A1 (en) 2005-08-04
AU2005207596A1 (en) 2005-08-04
PL1706866T3 (pl) 2008-10-31
DK1706866T3 (da) 2008-06-09
EP1706866B1 (en) 2008-03-19
US7840410B2 (en) 2010-11-23
CN1910656B (zh) 2010-11-03
DE602005005441T2 (de) 2009-04-23
JP5069909B2 (ja) 2012-11-07

Similar Documents

Publication Publication Date Title
TW200534602A (en) Encoding blocks of audio information arranged in frames with constrained optimization of segmenting the frames into groups of blocks
JP5658307B2 (ja) ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化
EP1905011B1 (en) Modification of codewords in dictionary used for efficient coding of digital media spectral data
KR100949232B1 (ko) 인코딩 장치, 디코딩 장치 및 그 방법
EP1667112B1 (en) Apparatus, method and medium for coding an audio signal using correlation between frequency bands
EP1684266B1 (en) Method and apparatus for encoding and decoding digital signals
WO2002103685A1 (fr) Appareil et procede de codage, appareil et procede de decodage et programme
JP2007523366A5 (zh)
KR100524065B1 (ko) 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치
JP5280607B2 (ja) 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体
JP6146069B2 (ja) データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
JP2006003580A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
EP2993665A1 (en) Method and apparatus for coding or decoding subband configuration data for subband groups
Khaldi et al. HHT-based audio coding
JP2842276B2 (ja) 広帯域信号符号化装置
JPH07183857A (ja) 伝送システム
JP5799824B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP2006211243A (ja) ディジタル信号符号化装置,ディジタル信号符号化方法
WO2022201632A1 (ja) 符号化装置、復号装置、符号化方法、及び、復号方法
MXPA06008224A (es) Codificacion de audio basada en el agrupamiento de bloques
TW202329089A (zh) 編碼裝置、解碼裝置、編碼方法及解碼方法
JPWO2011045927A1 (ja) 符号化装置、復号装置およびこれらの方法
KR20160078321A (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법