TW201108205A - Method and apparatus for vector quantization codebook search - Google Patents
Method and apparatus for vector quantization codebook search Download PDFInfo
- Publication number
- TW201108205A TW201108205A TW098145596A TW98145596A TW201108205A TW 201108205 A TW201108205 A TW 201108205A TW 098145596 A TW098145596 A TW 098145596A TW 98145596 A TW98145596 A TW 98145596A TW 201108205 A TW201108205 A TW 201108205A
- Authority
- TW
- Taiwan
- Prior art keywords
- search
- codebook
- elements
- code
- vector
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013139 quantization Methods 0.000 title claims abstract description 51
- 238000012706 support-vector machine Methods 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 239000004575 stone Substances 0.000 claims description 2
- 210000002784 stomach Anatomy 0.000 claims 1
- 238000012545 processing Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 15
- 238000000926 separation method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010845 search algorithm Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- MTHSVFCYNBDYFN-UHFFFAOYSA-N diethylene glycol Chemical compound OCCOCCO MTHSVFCYNBDYFN-UHFFFAOYSA-N 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000010410 dusting Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
201108205 六、發明說明: 【發明所屬之技術領域】 本發明大體而言係關於向 里置化且更特疋s之,择y 於降低向量量化搜尋複雜柯 ^ ’、。本發明之實施例係關於碼簿 搜哥。 【先前技術】 通节’向m為來自信號處理之量化技術,1慮及藉 由原型向量之分布來模型化機率密度函數。可將向量量化 應用於信號’其中信號為至少—其他參數(諸如時間)之連 續或離散函數。連續信號可為類比信號,且離散信號可為 數位信細如資料)。因此,信號可指代在任何時間具有 為實數或只向里之值的序列或波形。信號可指代圖片或影 像,其具有取決於複數個空間座標(諸如兩個空間座標)而 非時間變數的振幅。信號亦可指代動g影像,纟中振幅為 兩個空間變數及-時間變數之函數。信號亦可關於將應用 疋向至特疋目的之抽象參數。舉例而言,在話語寫碼中, L號可扣代一參數序列(諸如增益參數、碼薄索引參數' 間距參數及線性預測寫碼(「LPC」)參數)。信號之特徵亦 可為,可被觀測、被儲存及/或被傳輸。因此,信號常常 經寫碼及/或變換以適合特定應用。除非另外指出,否則 術語信號及資料可在全文中互換使用。 與向量量化相關聯之技術發展自由Shann〇n、C E開發 並也述於「A Mathematical Theory of Communication」 (Bel1 Syst· Tech· J.,第 27卷,1948年 7月,第 379-423 頁、 145606.doc 201108205 623-656頁)中的通信理論與信號寫碼。因此,在該文獻 中’可將向量量化替代地稱作「保真度準則下之源寫 碼」。常常將與向量量化相關聯之技術應用於信號壓縮。 若可自經寫碼的信號完美地重建信號’則該信號寫碼為 「無雜訊寫碼」或「無損寫碼」。若資訊在寫碼期間損 耗,藉此抑制了精確重建,則將該寫碼稱作「有損壓縮」 或「有損寫碼」。常常將與有損壓縮相關聯之技術用於話 語、影像及視訊寫碼中。 常常將與向量量化相關聯之技術應用於經由數位轉換 (諸如類比話語或音樂信號至數位信號之轉換)所獲得之信 號。因此,數位轉換處理程序之特徵可為取樣及量化,該 取樣使連續時間離散,且該量化將經取樣振幅之無限範圍 減小至一有限可能值集合❶在取樣期間,出現一種現象, 其中不同連續信號在被取樣時可能變得無法區分(亦即, 彼此之「假訊」)。為防止此事件發生,公認地,將取樣 頻率選擇為比頻寬或最大分量頻率之2倍要高。該最大分 量頻率亦被稱為尼奎斯頻率。因此,在傳統電話服務(亦 稱為POTS」)中’類比話語信號之頻帶被限制在则 至3400 HZ ’且類比話語信號係在8000 Hz下被取樣。為對 向量量化產生概念’提供標量量化之簡要概述。 性的圖1 00。在量化期間,一 _ 逯續振幅之輸入信號(例如: 16位元數位化信號)由χ軸表 、 且轉換成由y轴表示之离 散振幅信號。輸入信號盥輪屮 /、跑出k唬之間的差異被稱為「i 145606.doc 201108205 ㈣差」或「雜訊」且有限振幅位準《間的距離被稱為量 「°° Δ 102參看圖1 ’顯而易見’在X軸上的「4」與 之㈣輸人值量化成y軸上的且由二進位碼^ • :100」表示。與在「4」肖「5」之間的無限可變輸入資 • ^相比較’碼子之儲存及’或傳輸表示顯著壓縮。在均勻 量化器中,-般將位準數目選擇為形式”,以有效地使用 B個一進位碼子’且選擇以涵蓋輸入樣本範圍。因 此,在均句量化器中,通常藉由增加位元數目來減少量化 誤差。 圖2說明-展示-例示性非均句標量量化器之輸入輸出 特性的圖200。為提高信號與量化雜訊之比率,對於每樣 本之給定數目個位元而言,通常選擇量化器之步長△ 2〇2 以匹配待量化之信號的機率密度函數。舉例而言,類似於 話語之信號不具有均勻機率密度函數,其中較小振幅之出 現頻率比較高振幅之出現頻率高得多且較小振幅之意義大 過較高振幅。圖2說明具有步長△之一非均勻量化器,步長 △關於更高的輸入信號值而增加。因此,對應於在「7」與 「8」之間的輸入值的碼字「mj具有比對應於碼字 「100」之步長△ 204大得多的步長△ 2〇2,因為彼等值出 •㈣頻率更小。此提供兩個主要優點。第一,話語機率密 度函數的匹配更精確,藉此產生更高之信雜比。第二,更 低之振幅(其說明於圖200之原點周圍)更促成話語之可懂度 且因此其量A更精確。實ϋ,話語一般遵循對數標度 (logarithmic scale)。因此,在1972年,ITU電信標準化部 145606.doc 201108205 門(ITU-T)在標準ITU-T G.711中定義了兩種主要對數話語 壓縮演算法。該兩種對數演算法被稱為壓擴μ律(用於北美 及曰本)及壓擴Α律(用於歐洲及世界其他地方),且一般而 言其特徵為遵循對數標度之步長A。根據G.711標準,μ律 及Α律演算法分別將14位元及13位元帶符號線性pcM樣本 編碼為對數8位元樣本且藉此針對在8 kHz下取樣之信號而 產生64 kbit/s之位元流。 如上文所陳述,若首先估計輸入信號(諸如話語)之機率 密度函數,則可在量化之前調整量化位準。此技術被稱為 「前向調適」且具有減少量化雜訊之效應。一些信號(諸 如話語)高度相關使得在鄰近話語樣本之間僅存在小的差 異。對於高度相關之信號而言’量化器可視情況編碼輸入 值(亦即,PCM值)與預測值之間的差異。此等量化技術被 稱為差動(或△)脈衝碼調變(r DPCM」p ITU電信標準化 部門(ITU-T)於1990年將調適與差動脈衝碼調變此兩種概 念標準化為ITU-T ADPCM話語編解碼器G.726 e如通常所 使用,ITU-T G.726在32 kbit/s下操作,此使網路容量比 G.711下的網路容量增加1〇〇%。 【發明内容】 種裝置包含:一碼薄,其包含複數個碼薄元素,其中 該等元素經分離為第一搜尋區間及第二搜尋區間;及一搜 尋模組,其經組態以判定—輸人向量之—所要碼薄元素是 在第一搜尋區間中或是在第二搜尋區間中。 -種搜尋-碼薄之方法包含:提供具有複數個竭簿元素 145606.doc 201108205 之-行動台螞薄,其中該 間及第二搜尋區間,·判定一輸入二…"尋區 在第-撞霖、 —所要碼薄元素是 品間中或是在第二搜尋區間中. 的搜尋卩„山』, 1u π,及在该所判定 哥£間中搜尋該所要的碼薄元素。 —種含有軟體之電腦可讀取媒 雷聪舳V- 田研仃時,该軟體使 電胳執仃以下動作:提供具有複數個 碼薄,其中咳草 π素之订動台 4碼^素經分離為第—搜尋區間及第二搜 =二輸入向量之一所要碼簿元素是在第-搜尋 中搜、疋在第二搜尋區間t;及在該所判定的搜尋區間 中搜号5亥所要的碼薄元素。 么-種器件包含:用於提供具有複數個碼簿元素之—行動 。碼溥的構件’其中該等碼薄元素經分離為第一搜尋區間 =第:搜尋區間;用於判L向量之_所要碼簿元: 疋在第-搜尋區間中或是在第二搜尋區間中的構件;及用 於在所判定的搜尋區間中搜尋話語碼薄元素的構件。 -種根據-處理程序組態之碼薄產品包含:提供複數個 碼薄元素,其令該等碼薄元素經分離為第一搜尋區間及第 一搜尋區間;判定一輸入向量之一所要的話語碼薄元素是 在第一搜尋區間中或是在第二搜尋區間中;及在所判定的 搜尋區間中搜尋所要的話語碼簿元素。 【實施方式】 參考圖式,其中貫穿諸圖相似部分以相似數字表示。更 特定言之’預期本發明可實施於多種電子器件中或可與多 種電子器件相關聯’該等電子器件為諸如(但不限於)行動 145606.doc 201108205 电5舌、無線器件及個人資料助理(「PDA」)〇 圖3說明—向量量化器3〇〇之示意性方塊圖。向量量化替 代地被稱為「區塊量化」或「型樣匹配量化」。通常且如 =圖3所說明,向量量化提供將一組離散參數振幅值聯合 里化為單個向量。信號χ(η)由輸入向量緩衝器302緩衝且經 輸出作為如下定義之Ν维向量X : X ’···’〜] 等式 1 其中r指不向量量化中之轉置。變數χ可由具有實值、連續 田隧機變化之分量Xk( 來例示《碼薄3 〇4儲存如 下定義之—組碼薄資料Y(亦稱為「參考模板」): Y = y>=^yn,yi2,-,yiN]T 等式2 其中L為碼薄3〇4之大小,且力為碼薄向量其中β匕[。 向里匹配單元306接著將向量乂與複數個碼薄項L相比較且 輸出碼薄索引i。如下文予以更詳細陳述,存在許多用以 蝎盡地或非竭盡地搜尋碼薄304以判定適當索引丨的技術。 ‘ =4係說明分割為複數個單元之二維碼薄的圖*⑻。將橫 座紅定義為Xl且將縱座標定義為X2。為設計二維碼薄,將 二維n空間分割為1個區域或「單元」Ci(l处L)。自量yi與每 —單元q相關聯且由形心(諸如形心4〇4及4〇6)表示。如 說*明,h —y , 么乃母一形心為位於每一單元Ci内中心的點。當然,若 ::空間N等於…,則向量量化降低至標量量化。在向 里I化期間,位於單元Ci 402中之任何輸入向量乂經量化為 馬薄设计處理程序亦稱為訓練或填充碼薄。應不難觀 測到,出於碼薄最佳化之目的,單元Ci之形狀可變化以反 1456〇6.d〇c 201108205 映步長位準△之二維改變,藉此提供優於標量量化之優 點。出於圖4中之清晰性,已移除與橫座標軸&及縱座標 軸相關聯的值。然而’顯而易見,單元4〇2將涵蓋沿χ丨軸 之值範圍及沿X2軸之值範圍。 大體而言,將沿Xix2軸且落在單元術内的值定義為叢 聚(ClUSter)於形心彻周®。當將圖4之二维空間擴展至轉 空間時,保持將資料叢聚於形心周圍的特徵。 圖5A係說明-音訊信號5〇2(諸如話語)之取樣及量化的 圖_。樣本504出現於值「4」貞「5」之間,且經量化成 值「4」。 圖5 B係說明與圖5 A之音訊信號5 〇 2相關聯之複數個量化 樣本的圖51〇。以實例說明之,—對量化樣本512可為藉由 二維量化量化成圖4之對應於冲,3]之單個單元的向^。 同樣,-對量化樣本514可為經量化成對應於χ=[4, 6]之單 個單元的向量。一顯而易見之優點係傳輸及/或儲存蛊一 對值相關聯之單個碼薄索W的能力。因此,當盘伊量旦 化相比較時,壓縮增加至兩倍。進一步參看圖5β,亦變: 顯而易見,由三個量化檨太 _ 7本,、且成的二維向量可與三維碼簿 相關聯,等。同;):¾, . 纟®之日訊資料可用影像資料、視气 育料或與原始信號資料相關聯之其他參數來代替。其他炎 數之-實例將為用於話語寫碼中之線性預數 (「LPC」)。 7 跃 八當向量大小增加時,—般使用數學表示來代替視覺概 念。此外,已開發各種演算法來用於增強碼簿搜尋^ 145606.doc 201108205 而,提供大多數瑪薄設計來將資料叢聚於形心周圍…廣 受歡迎的碼薄·演算法為如下^義之κ均值演算法·· 給定迭代索引m,盆巾Γ &产.出在, -、rii為在迭代m中之第丨個叢聚,其 中yim為形心: 初始化:設定m = 〇且選擇一組初始碼薄向量乂 (1 处L) 〇 2. 將一組訓練向量Xn, 則等式3 分類.藉由最近相鄰者規則而 (1SMM)分割為叢聚q, 若 d[x,yim]sd[x,yjm](所有, 3.碼薄更新 m-m+1。藉由計算每一叢聚中之訓練向 量的形心來更新每一叢聚之碼薄向量β 4.終止測試··若相對於爪-丨在迭代m中之總失真之減小 低於一特定臨限值,則停止;否則,轉至步驟2。 K均值演算法大體由K〇nd〇z,A M描述於「Digital Speech, Coding for Low Bit Rate Communication Systems j (第一版本,2004年,John Wiley & Sons,Ltd·,第 3章,第 23 54頁)中。κ均值决算法收斂至局部最佳值且一般被即 蚪執行以達成最佳解。然而,通常,任何此解並非為唯一 的。一般藉由將碼薄向量初始化至不同值且對若干組初始 化進行重複以獲得具有最小化失真之碼薄,來提供碼簿最 佳化。公認地,與完整碼薄搜尋相關聯之計算及儲存需求 與石馬字位元之數目呈指數相關。此外,因為通常藉由使一 輸入向量與碼字交叉相關來提供碼字選擇,所以竭盡式即 時碼薄搜尋需要大量乘法·加法運算。因此,已著手努力 145606.doc •10- 201108205 來降低計m雜性,此轉化為處理器效率之提高及功率消 耗之減少。在話語及視訊處理之技術中,減少之功率消耗 轉化為掌上型單元(諸如膝上型電腦及無線手機)之電池壽 命增加。 已開發了二元搜尋方法(亦稱為階層式叢聚),作為對竭 盡式K均值演算法之改良。由Buz〇,A等人在「SpMch Coding Based Upon Veetor Quantizati(>n」(臟e
Transactions on Acoustics, Speech and Signal Processing (ASSP),第28卷,編號5,198〇年1〇月,第562_574頁)中 提供一種用於二元叢聚之眾所周知的技術。基於unde、 Buzo 及 Gray之名為「An Alg〇rithm f〇r ν_〇Γ q咖
Design」(IEEE Transactions on Communicati〇ns,第 28 卷,編號1 ’ ^肋年丨月,第84-95頁)的論文而將此技術稱 作「LBG演算法」。儘管LBG演算法與在線性預測寫碼 (「LPC」)系統中量化10維向量有關,但該技術可概括如 下。 在二元搜尋碼簿中,首先將N維空間劃分為具有兩個初 始向量之兩個區域(例如,使用K均值演算法)。接著,將 該兩個區域中之每一者進一步劃分為兩個子區域,如此類 推’直至將該空間劃分為L個區域或單元。因此,[為2之 冪(L=2B) ’其中b為整數位元數目。如上文,每—區域與 形心相關聯。在第一次二元劃分時,將新向量、及V2計算 為總空間之兩個半部分的形心。在第二次二元劃分時,v 經劃分為兩個區域,其中每一區域具有經計算為彤心v及 145606.doc 11 201108205 的向篁。同樣,向量V2經劃分 域具有經計算為形心V5h…[域#中母一區 具有盛K均… 6之向置,如此類推,直至獲得 U自值叢聚相關聯之形心的區域。因為在—給定時 間僅將輸入向量χ與兩個 ’ ν 、者相崎,所以計算花費為 額元數目的線性函數。另-方面,必須預先計算 /。將之儲存於碼薄内,藉此增加儲存需求。 建構一 "°搜尋碼薄之變體使得來自先前階段之每—向旦、在 指向兩個以上之向量。因此在計算花費與儲:需 求之間存在權衡。 2值演算法可與二元搜尋方法相區分,因為對於&均 值演算法而言,僅對訓練序列進行分類。換言之,Κ均值 演算法規;t以低失真方式(其對於分組而言係具計算效率 的)來對向量序列分組,但直至完成搜尋程序並未產生量 化器。另一方面,在二元搜尋或「叢聚分析」方法中,目 標係產生自預先計算之形心建構之一時間不變量化器路 控’其可用於在訓練序列之外的未來資料上。 該文獻中所陳述之其他類型之碼薄為自適應碼薄及分裂 向量碼薄。在自適應碼薄中,以與另一碼薄(諸如固定碼 薄)級聯之方式使用第二碼薄。該固定碼薄提供初始向 量’而自適應碼薄則回應於輸入資料集合(諸如對應於個 別者之話語的特定參數)而經連續更新及組態。在分裂竭 薄方法(亦稱為分裂向量量化或分裂VQ)中,首先將N維輸 入向量分,裂為複數個部分,其中分離的碼薄用以量化N維 輸入向量之每一部分。然而’上述類型之碼薄之_共同特 145606.doc 201108205 性為執行失真之量測以便選擇判定沿搜尋路徑之對應碼字 或適當形心。 自然出現之信號(諸如話語、地球物理信號、影像等)具 有大量固有冗餘。此等信號給予其自己壓縮表示以改良資 訊之儲存、傳輸及提取。向量量化係一種用於一維及多維 號之有效表示的有效技術。亦可將其視為至多種複雜信 號處理任務(包括分類及線性變換)的前端。一旦獲得一最 佳向篁s化器,在某些設計約束下及對於一給定效能目標 而言’便達成非常顯著之效能增益。 已成功地將向量量化技術應用於各種信號類別(特別係 t取樣話,吾、影像、視訊等)。向量直接自信號波形形成 (波形向1量化器」)或自自信號提取之線性預測 (旦,型參數形成(基於模式之向量量化11 )。波形向 置量化器常常編碼信號向量之線性變換、域表示或其使用 多2析度子波分析之表示。基於模型之信號特徵化的前提 為兔頻帶、頻譜平土曰、激_點山 十—激勵由—全極點濾波器(all p〇le filter)處理以產生信號β此表示具有包括信號塵縮及辨識 之有用應用(尤其係#使用向量量化來編碼模型參數時)。° 可在許夕領域中發生向量量化瑪薄搜尋。下文中 就行動通信來描述向量詈,,,^ ^ 里里化。然而,向量量化並不限於科 動通信,因為其可庳用於甘 丁 w ; 他應用(例如,視訊寫碼、每 語寫碼、話語辨識等)。 兩 述,—激勵波形犧含-系列激勵波形。 編碼期間’執行碼薄搜尋可需求密集之計算
145606.doc S.J 201108205 及儲存需求(尤其對於大碼薄而言)。一實施例係提供一改 良之向量量化碼薄搜尋的系統及方法,該改良之向量量化 碼薄搜尋使用支援向量機(「SVM」)以使用更少之資源來 執行更快速之碼薄搜尋。SVM係一組用於分類之相關受監 督學習方法。在一實施例中,碼薄波形經分離為多個區 間。在碼薄搜尋期間,作出以下判定:哪一區間保持恰當 之激勵波形,且接著僅搜尋彼區間。藉由將碼薄分離為兩 個或兩個以上之區間或子部分,可降低搜尋複雜性,因為 不需要搜尋全部的碼薄波形。 根據一實施例,當離線時,控制器使用svm來計算碼薄 、水!生可77離超平面,接著使用自SVM導出之超平面而將 碼薄元素分離為複數個區間(例如,兩個區間' 四個區 間八個區間等)。存在可用以將給定碼薄元素分離為多 個區間的許多線性分類器(例如,超平面)。自SVM計算之 超平面達錢間之間的最大分離。此分離規定在超平面一 側上之碼溥兀素與在超平面另一侧上之碼薄元素之間的最 近距離經最大化。在每―區間之元素之間的此大距離之情 況下’在將元素分類至類別或區間中之—者中可存在更少 在另一實施例中,蕤ώ — 精由计鼻一個維度(非超平面)中之平 ,一在平㈣ __ 搜碼器或_ ' 态之話6吾型樣來判定哪一區間 145606.doc 201108205 含有—所要之話語碼薄元素。一 該所要I —搜哥處理程序判定含有 斤要碼之心素之恰當㈣,料理料便在最 件下搜尋彼區間中之所有元素㈣㈣所要Μ 整個碼薄此極大減小了搜尋負擔’因為不需要控制器搜尋 適當二,r:t控制器搜尋為整個碼薄之-子部分的 =:此 尋複雜性降低,因為碼薄元素為靜態 且因此-旦離線便可計算超平面且接著在搜尋之 時間期間多次使用該超平面。 =薄之完整搜尋中,隨機定位碼向量。該搜尋等於 目標向量與碼薄中之每-碼向量之間的最小失 果。搜尋複雜性_成比例。二元碼薄基於至針 對此業所定義之形心的距離而將碼向量分割為叢聚。 匕叢錢行預先搜尋使得可配置㈣㈣^有效之搜 -。在:增加記憶體需求為代價來儲存形心節點的情況 下’搜尋複雜性與log2N成比例。 :6A說明待量化之代表性資料6〇。’且圖沾說明分割為 叢聚之貧料60〇。實例叢聚為[VI、[v2、[v21、[v22 [v211及[v2l2。該等分割區係基於碼向量至對應叢聚妒心 之距離來判定的。將形心向量儲存為碼薄中之節點且用於 搜哥演异法中以遍曆碼簿(亦即,樹)中之路徑(亦即,八 枝)。 η 圖6C說明一搜尋樹圖,其對應於對圖6β中之 …。」進行的搜尋。由一等指示之變數表 樹中之形心節點’其中圖60之變數對應於圖= 145606.doc •15· 201108205 聚0 圖6m兒明一流程圖,其對應於對圖犯及圖此中之目標 輸入向量「。」進行的搜尋。在操作652中,計算輸入話: 目標向量與…之間的失真及輸入話語目標與以之間的失 真在知作654中,比較並選擇最小失真(將選擇V2)。 在操作656中,计异輸入話語目標向量與v21之間的失真 及輸入話語目標與v22之間的失真。在操作658中,比較並 選擇最小失真(將選擇V2 1)。 在操作66G中,計算輸人話語目標向量與V211之間的失 真及輸入話語目標與v212之間的失真。在操作⑹中,比 較並選擇最小失真(將選擇v2 1 1)。 在操作664中,古+笪於λ t < , 彳异輸入活语目標向量與v21 1所關聯之 瑪向量之間的失真。 圖7 A說明一瑪薄中之沖本从格β ^ ^尋甲之代表性碼溥資料7〇〇,該碼薄可使 用超平面710及支揸向吾φ八士, 一 叉後向里來分割。該等支援向量並未如在 上述凡搜号"碼薄中其热^ t 孕1P基於最小距離準則而進行叢聚。實情 為’基於一預定準則蔣古垃 ^ 將支板向置分類為兩類且計算超平面 以藉此將支援向量分離為區間。 圖7Β說明具有邊_ 之碼薄資料7〇〇 ’該邊距720被定 義為自超平面至支接命旦Λ 里730及732的距離。藉由尋找一最 大化該邊距之曲線”式來判定超平面710。 圖7C說明具有比圖π更接 更佳之超平面71〇的碼薄7〇〇。圖 7D說明當函數(超平面)去丨^八 J疋;7割區而非單個點(形心)時搜 尋誤差得以減少。舉例 + 一 5 ’圖7D表示目標向量78〇及應 145606.doc 201108205 基於最小距離而在搜尋中選擇之支援向量79〇。 圖8Α說明在二元碼薄資料8〇〇之搜尋中的一代表性第一 最小距離的計算。在此情況下’將歸因於更小之距離而選 擇與vl相關聯之叢聚。圖犯說明一定位於二元碼簿資料 800中之超平面之下的支援向量集合之選擇。 因此,一旦借助於上文所陳述之反均值演算法或演 算法來訓練VQ碼薄,便針對待量化之任何輸入向量來執 行整個碼·薄之竭t式搜#。因此,避免碼薄之竭盡式搜 尋。 圖9係方塊圖,其說明一種包括耦接至記憶體9〇4之控制 器902的處理器件90〇。根據實施例,處理器件9〇〇可為影 像處理器件、視訊處理器件或話語處理器件(諸如無線手 機)。或者,處理器件900可包括(除其他器件外)不用手之 車電話系統、陸上室内線路電話、會議呼叫電話、蜂巢 式電話、安裝於房間之系統(其使用天花板揚聲器及桌上 之麥克風)、行動通信器件、藍芽器件及電話會議器件 等。在—實施例中,處理器件900在gsm、UMTS4CDMA 型無線網路上操作。 如所說明,記憶體9〇4儲存碼薄WO。碼薄91〇包含表示 靜態激勵波形或元素之碼薄元素92〇。碼薄元素92〇包含表 示π S參數之輸入碼向量。因此,碼薄9 1 〇提供一種用於 提供複數個碼薄元素920之方法。在此實施例中,將碼薄 91〇說明為具有第一搜尋區間940及第二搜尋區間950,其 中該等搜尋區間藉由超平面930而分離。 145606.doc -17- 201108205 超平面930將碼薄元素92〇分離為複數個區間。在所說明 之實施例中,超平面93G將碼薄91()劃分為兩個區間剛及 950。然巾,在其他實施例中’可將碼薄進一步分割為四 個區間、人個區間、十六個區間等。藉由將碼薄元素92〇 分離,複數個區間,每—區間含有少於全部之碼薄元素。 在實把例中,接近超平面之碼簿元素經置於兩個區間中 以減少分類誤差。在所說明之實施例中,區間94〇及95〇各 自含有接近-半或稍多於一半的碼薄元素 '结果,搜尋在 兩個區間中之一者中的碼薄元素可比搜尋所有碼薄元素快 大致一倍。 自控制Θ 9G2中之至少—分離模組97()來計算超平面 93〇。在一實施例中,分離模組97〇為支援向量機 L SVM」r72°因此’SVM 972提供—種用於自複數個碼 、·’、兀:计忙超平面的方法。SVM包含一組用於資料點(諸 %簿元素)之刀类員及回歸的方法。因❿,SB⑺藉由最 在超平面每側上之資料之間的幾何邊距來最小化分 、誤差SVM 972月包夠產生在類別(亦即,區間)中之每— 者中的碼薄元素之間的最大可能分離或邊距。因此,分離 模組970提供-種用於將碼薄元素分離為第—搜尋區間及 第二搜尋區間的方法。 。2) ' (X3, 972對超 ,q為正 ,且Xi為 數學上,一般藉由考慮為形式{(Xi,Cl}、(X2,
、) (n’ Cn)}之一組訓練資料來解釋由SVM MM 最大化分離或邊距。在丨練資料中 -或負-’其指示資料點Xi所屬之類別或區間 145606.doc 201108205 η」維實向量。此訓練資料(Xi,Ci)指示SVM應最終藉由 其來加以區別之所要分類。SVM藉由用一分割區(諸二刳 分之超平面)來劃分訓練資料點而實現此分類。超平面1 以下之數學形式:w.Xi-b=0,其中w為與超平面垂直之輪 入向量,且b為偏移參數,其判定自原點沿法向向量w之2 平面偏移,允許增加邊距,避免需要使超平面穿過原點。 為最大化分離,SVM計算最接近碼薄向量之平行超平 面。藉由以下等式來描述平行超平面' :wxi_b=1及 。若訓練資料(Xi,Ci)為線性可分離的,則SVM可計算在釗 練貢料之間無點的超平面,其最大化分離距離。為實現 此,SVM最小化支援向4w之值,同時仍保持上述超平面 等式。已計算用於支援向量评之兩種解。帛一,在 ΚΙ)對於14分的條件下,原始形式為% 之二次程式最 佳化。第二’對偶形式w=aiCiXi(之和)〇自!變化至η卜因 而’針對給定-組碼薄元素或項而對上述等式求解以找出 最大化分離之超平面。 SVM實施例降餘何料編解碼μ之碼薄搜尋的搜尋 複雜性。可使用自支援向量機導出之線性可分離超平面而 將碼薄中之所有元素分離或隔離為兩個或兩個以上之區 間。為減少由分類誤差產生之搜尋誤差’可將接近超平面 之碼薄項或元素包括至一個以上之區間中。 在另一實施例中,分離模組970為分裂向量量化 (「SVQ」)結構。SVQ結構將每一碼薄向量劃分為兩個或 兩個以上之子向量,該耸不一曰丄 . , 〆 邊寺子向夏中之每一者經受單調特性 145606.doc -19- 201108205 而經獨立量化。分裂藉由 積田將碼溥向量劃分為一系列子向 而降低搜尋複雜性。 可在任何數目之維唐r & 又(包括一個維度至16維度)中發生分 離。在一個維度中,點 點刀割為一維線。在兩個維度中,線 分割為二維平面。在=個 '· … 個維度中’I面分割為2維表面。 SVQ減小資料維度。因此 此刀離杈組970(諸如SVQ)及超平 面930之計算可離線執行, 且接者在執行時間期間加以使 用。 可將S VQ應用於與線性;带丨音,「 、深’生預測寫碼(「LPC」)相關聯之技 1 &以低速率進行話語壓縮之已為吾人所接受 的技術α為達成LPC參數之读明θ ^ ^ m之透明夏化,通常在標量量化中 品要30至40個位元。向量量化(「VQ」)可將位元速率減小 至職^/訊框,但此位元速率下Lpc參數之向量寫碼引入 大的頻谱失真,其可餅於古σ糾 、 ;同ηο貝話語通信而言為不可接受 的。在過去,已福笔^士4& L > 已美4,,,σ構上受限制之v 餘)VQ及分割(分裂)卩(^來 夕及(奴 _、 Y木具兄如里量化與向量量化之間的 位^速率中之空隙。在多級方案中,VQ級經級聯連接, 1 吏得其之每一者對先前級之殘餘部分操作。在分裂向量方 案令,輸入向量經分裂為兩個或兩個以上之子向量,且每 量經獨立地量化。最近’已僅使用Μ位元/訊框分 裂向置方案來達成線譜頻率(「LSF」)參數之透明量化。 /9中亦展示搜尋模組_。在執行時間期間執行之搜尋 、80可判疋哪一區間含有所要之話語碼薄元素。因 此’搜尋模組980提供一種用於列定一所要碼薄元素是在 145606.doc •20· 201108205 第一搜尋區間中或是在第二搜尋區間中的方法。搜尋模組 980可藉由基於—輸人向量而將第—搜尋區間_定義為具 有-正結果且基於該輸入向量而將第二搜尋區間咖定義 為具有一負結果來實現此。在判定哪一區間含有所要碼薄 疋素之後,搜尋模組_在彼區間中搜尋所要碼薄元素。 因此,搜尋模組提供-種在所判定的搜尋區間中搜尋 所要碼薄元素的方法D Λ — φ. . θ 下们万居在貫施例中,搜尋模組980包含 一向量量化碼薄搜尋。在另眘 ㈢ 守役+隹另貫細•例中,搜尋模組980在 最小均方誤差條件下搜尋碼薄元素。 圖10係說明搜尋一碼薄之處理程序之流程圖。該處理程 序在操作刪處開始。在操作1()1()處提供—行動二碼 薄。該碼薄包含表示揚聲器之語音之特性的複數個㈣元 素1後,在操作剛處,該處理程序計算—線性可分離 =平面中’ SVM自該複數個碼薄元素計算碼 溥中之超平面,其中該超平面形成碼薄中之兩個搜尋區 間。儘管在一實施例中,碼薄分割為兩個搜尋區間,但在 其他實施例中,可將碼薄進一步分割為四個區間、八個區 間三十六個區間等。緊接著’該處理程序在操作刪中將 碼溥7L素分離為搜尋區間。儘管可針對冗餘及為減少誤差 而將某-碼薄元素置於多個搜尋區間中,但每一搜尋區間 含有少於全部之碼薄元素。與在搜尋所有碼薄元素之情況 下相比’此使得能夠以更少之資源來進行更快速之搜尋。 進仃至#作1040 ’正在進行行動通信對話。緊接著,該 處理程序在操作刪申藉由碼薄元素來表示行動台揚聲器 Γ 145606.doc •21· 201108205 者的w。在行動通信期間,代替發送實際語音參 :二改為發送表示實際語音參數的向量。接著,該處理程 序在#作!_中判定哪—搜尋區間具有對應於揚聲器語音 之特定話語碼薄元素。在操作咖處,該處理程序在所判 定的搜尋區間中搜尋特定話語碼薄元素。可藉由在最小均 :誤差條件下搜尋來實現此搜尋。該處理程序在操作刪 處結束。 圖11係說明在自適應多速率寬頻帶(「amr_wb」)話扭 編解瑪器中搜尋碼薄的處理程序之流程圖。AMR_WB將音 訊頻寬擴展至7 k Η z且給出優良之話語品質及語音自然性 (與固線電話網路及第二代及第三代行動通信系統中之現 有編解碼器相比)。將AMR_WB引入至gsm及寬頻帶割碼 ^重存取(「WCDMA」)第三代(「3G」)系统帶來話語品 質之基本改良,從而將其提高至以前在行動通信系統中從 未、’二歷的水準》其遠超窄頻帶話語品質之當前高品質基準 且改k行動系統中高品質話語通信的期待。已藉由將新穎 技術併入至代數碼激勵線性預測(「ACELp」)模型中以便 改良見頻f k號之效能而使AMR-WB編解碼器之良好效能 變得可能。 該處理程序在操作11〇〇處開始。在操作111〇處,該處理 程序以f(x)=ax+b計算超平面,其中X為一給定輸入向量, 且a與b為常數。在一實施例中,計算超平面。在另一 貫施例中’計算不同於超平面之線性分類器。在一實施例 中’計算一平均分割值。進行至操作1120,在離線時使用 145606.doc •22· 201108205 超平面以將碼薄元素分割為兩個區間。在一實施例中,使 用線性可分離超平面。在操作1 13 0中,將接近超平面之碼 薄元素置於多個區間中以減少分類誤差。 繼續至操作1140 ’在以隶小誤差搜尋之前,搜尋演算法 判定哪一區間含有給定輸入向量。數學上,若f(x)>〇,則 輸入向量在第一區間中,而若f(x)<〇,則輸入向量在第二 區間中。緊接著,在操作1150中,搜尋演算法判定輸入向 量與碼薄中之每一碼薄向量之間的距離。在操作1160中, 搜尋演算法尋找並傳回所有碼薄向量當中之最小距離碼薄 向量的碼薄索引。該處理程序在操作1170處結束。 提供用於對應於圖11之至少搜尋操作1140至1170的改良 搜尋演算法之偽碼,使得熟習此項技術者可更好地理解碼 薄搜尋。上文在圖9中解釋了使用SVM之達成碼薄項之間 的最大分離的超平面之計算。一旦計算分離碼薄項之此超 平面’便使用以下最佳化之搜尋演算法以執行具有降低之 複雜性的搜尋。用於二維碼薄之超平面為以下形式: f(x) = (w0*x(0)+wl*x(l)-b) x = input code vector; dist_min = 0x7FFFFFFF; p_dico = dico; index =0; code book size = 64; indexl = 0; /*dico-碼薄開始位址*/ /*超平面被定義為 f(x) = (0.04546*x[0] -0.000514*x[l] -12.515) */ result = (〇·〇4546*χ[〇] -0.000514*x[l] -12.515);
If (result > 〇) /*「codebook_positive」僅含有落在超平面之正側上之瑪 薄項及其索引*/ 145606.doc •23· 201108205 p_dico = &codebook_positive[0]; dico size = 32;
Else if /* 「codebook_negative」僅含有落在超平面之負側上之碼 薄項及其索引*/ p dico = &codebook_negative[0]; dico size = 32;
Endif pdicol =p_dico;
For i = 0 to code book size set dist to 0;
For j = 0 to dim temp = (x[j] - *p_dico++); dist = dist + (temp*temp);
Endfor if (dist - dist min) < 0) dist—min = dist; indexl = i; /*自此索引獲得原始碼薄索引*/ Index = *p_dico++;
Else if *p_dic〇-H-;
End if End for * distance = dist_min; /* 讀取選定向量 */ p_dico = &p_dicol [indexl * dim]
For j = 0 to dim x[j] = *p_dico++;
End for Return index; 145606.doc - 24 - 201108205 上述偽碼有效地判定哪一區間含有輸入向量且接著搜尋 彼區間。為比較,下文提供用於判定AMR-WB話語編解碼 器中之最小距離向莖索引的普通方法。首先,此方法尋找 輸入向量與碼薄中之每一碼薄向量之間的距離。其次,該 方法尋找所有碼薄向量當中之最小距離碼薄向量的碼薄索 引。 X = input code vector; /* dico -碼薄開始位址*/ dist_min = 0x7FFFFFFF; /* p_dico =碼薄位址;*/ p_dico = &codebook[0]; index = 0; code book size = 64; indexl = 0;
For i = 0 to code book size set dist to 0;
For j = 0 to dim temp = (x[j] - *p_dico++); dist = dist + (temp*temp);
Endfor if (dist - dist—min) < 0) dist_min = dist; index = i;
End if
End for * distance = dist—min; /* 讀取選定向量 */ p dico = &codebook[index * dim]
For j = 0 to dim x[j] = *p_dico++;
End for Return index; 145606.doc -25- 201108205 下表1中為來自二維及三維中之改良碼薄搜尋方法的測 試結果,其展示改良之效率。在此實施例中,所使用之分 離模組為SVM及SVQ。結果,用以獲得所要輸入向量之循 環的數目經降低17%與58%之間。 表1 碼薄搜尋之結果 碼薄名稱 碼薄 維度 碼薄 大小 碼薄搜尋 之總循環 碼薄搜尋之 最好情況循 環節省 完整搜尋 之循環節 省% 最好情況或 最壞情況 dicol isf noise 2 64 64(2*2+3) 37(2*2+3) 58% 最好情況 dico3 isf noise 3 64 64(3*2+6) 29(3*2+6) 45% 最好情況 dicol isf noise 2 64 64(2*2+3) 37(2*2+3) 30% 最壞情況 dico3 isf noise 3 64 64(3*2+6) 11(3*2+6) 17% 最壞情況 藉由上述描述應瞭解,所描述之實施例提供行動台中之 碼薄搜尋。根據上文所描述之一實施例,針對無線通信系 統中之雙模式行動台而提供碼薄搜尋。儘管將實施例描述 為應用於雙模式AMPS及CDMA系統中之通信,但一般熟 習此項技術者將不難瞭解,如何在類似情形(其中在無線 通信系統中需要碼薄搜尋)中應用本發明。 熟習此項技術者將理解,可使用多種不同技術及技藝中 的任一者來表示資訊及信號。舉例而言,可由電壓、電 流、電磁波、磁場或磁粒子、光場或光粒子或其任何組合 來表示可遍及以上描述所引用之資料、指令、命令、資 訊、信號、位元、符號及碼片。 熟習此項技術者將進一步瞭解,結合本文中所揭示之實 145606.doc •26· 201108205 施例所描述之各種說明性邏輯區塊、模組、電路及演算法 步驟可實施為電子硬體、電腦軟體或兩者之組合。為清楚 地說明硬體與軟體之此互換性,上文已對各種說明性組 件、區塊、模組、電路及操作大體上就其功能性進行了描 述。此功能性係實施為硬體或是軟體視特定應用及強加於 整個系統之设計約束而定。熟習此項技術者可針對每一特 定應用以變化之方式實施所描述之功能性,但不應將此等 實施決策解釋為導致背離本發明之範轉。 釔σ本文中所揭示之該等實施例描述之各種說明性邏輯 區塊、模組及電路可藉由經設計以執行本文中所描述之功 2的以下各物來建構或實施:通用處理器、數位信號處理 器(「DSP」)、特殊應用積體電路(「ASIC」)、場可程式 化閘㈣列(「FPGA」)或其他可程式化邏輯器件、離㈣ 或電晶體邏輯、離散硬體組件或其任何組合。通用處理器 可為微處理器,但在替代例中’處理器可為任何習:處= 器、控制器、微控制器或狀態機。處理器亦可經實施為計 算器件之組合,例如,Dsp與微處理器之,且合、複數個捣 處理器、結合一Dsp核心之一或多個微處理器宜 他此組態。 ^彳订其 結合本文中所揭示之實施例而描述的方法或 作:直接體現於電腦或電子儲存器中、硬體中、由處理Γ 體:Γ中或其組合中。軟體模組可駐存於電腦: 中(诸如RAM記憶體、快閃記憶體、咖 、 憶體、EEPR〇M記憶體、暫存器、硬碟、抽取式
E 145606.doc -27· 201108205 碟片、CD-ROM或此項技術中已知的任何其他形式之儲存 媒體中)。一例示性儲存媒體輕接至處理器,使得該處理 器可自儲存媒體讀取資訊及寫入資訊至儲存媒體。在替代 例中,儲存媒體可整合至處理器。處理器及儲存媒體可駐 存於ASIC中。ASIC可駐存於行動台中。在替代例中,處 理器及儲存媒體可作為離散組件而駐存於行動台中。 提供所揭示之實施例之先前描述以使熟f此項技術者能 夠製作或使用本發明。熟習此項技術者將顯而易見對此等 實施例之各種修改,且在m本”之精神或範缚的情 況下可將本文中所定義之一般原理應用於其他實施例。因 此’本發明並不意欲受限於本文中所展示之實施例,而是 將符合與本文中所揭示之原理及新穎特徵相—致之最廣範 »#。 【圖式簡單說明】 圖1係說明一例示性均句標量量化器之輸入輸出特性的 圖; 圖2係說明—例示性非均勾標量量化器之輸人輸出特性 的圖; 圖3說明一向量量化器之一示意性方塊圖; 圖4係說明—分割為複數個單元之二維碼薄的圖; 圖5A係說明一音訊信號(諸如話語)之取樣及量化的圖; 圖⑽說明與圖5A之音訊信號相關聯之量化樣本的 I ; 圖6A說明待量化之代表性資料; 145606.doc -28- 201108205 圖6B說明分割為叢聚之圖6A之資料; 圖6C a兒明-搜哥樹圖,其對應於對圖6β中之目標輸入 向量進行的搜尋; 圖6 D 6兄明一流程圖,盆^ -kK El A T-. m 其對應於對圖6B及圖6C中之目標 輸入向量進行的搜尋; 圖7A說明一碼薄中夕主-欠,丨 之代表性肓料,該碼薄可使用超平面 及支援向量來分割; 圖7 Β說明具有邊距之—成锋 、立 ^ 碼溥,该邊距被定義為自一超平 面至對應支援向量之距離; 圖7C說明具有一最佳化超平面之一碼薄; 圖7D說明當一函數(超平面)判定一分割區而非一單個點 (形心)時搜尋誤差之減少; · 圖8Α說明二元碼薄搜尋中一 π 之代表性第一隶小距離的計 算; 圖8Β說明—定位於超平面之下的支援向量集合的選擇 圖9係說明-儲存碼薄之記憶體及—控制器的方塊圖; 圖10係言兒明搜尋碼薄之處理程序的流程圖;及 圖11係說明搜尋碼薄之處理程序的流程圖。 【主要元件符號說明】
100 圖 102 量化器△ 200 圖 202 步長△ 204 步長A 145606.doc 201108205 300 向量量化器 302 輸入向量緩衝器 304 碼薄 306 向量匹配單元 400 圖 402 單元Ci 404 形心 406 形心 408 形心 500 圖 502 音訊信號 504 樣本 510 圖 512 量化樣本 514 量化樣本 600 代表性資料 700 代表性碼簿資料 710 超平面 720 邊距 730 支援向量 732 支援向量 780 目標向量 790 支援向量 800 二元瑪簿資料 145606.doc - 30 - 201108205 810 超平面 820 支援向量集合 900 處理器件 902 控制器 904 記憶體 910 碼溥 920 碼簿元素 930 超平面 940 區間 950 區間 970 972 980 Vj ' v2 X x(n) yi [v 1、[v2、[v21、[v22、 [v211 ' [v212 分離模組 支援向量機(「 搜尋模組 向量 向量 信號 碼薄向量 叢聚
SVM 145606.doc -31 -
Claims (1)
- 201108205 七、申請專利範圍: 1· 一種裝置,其包含: 一碼薄,其包含複數個碼薄元素,其中該等元素經分 離為一第一搜尋區間及一第二搜尋區間;及 一搜尋模組,其經組態以判定一輸入向量之一所要碼 薄元素是在該第一搜尋區間中或是在該第二搜尋區間 中。 2. 如咕求項1之裝·置’其中5亥等碼薄元素經進一步分離為 一第三搜尋區間及一第四搜尋區間。 3. 4. 5. 如請求項1之裝置,其中該裝置包含一無線電話。 如喷求項1之裝置,其中該等元素係使用一支援向量機 而分離為一第一搜尋區間及一第二搜尋區間。 如請求項4之裝置,其中該支援向 數個石馬薄元素計算一線性分類器, —超平面。 量機經組態以自該複 其中5亥線性分類器為 其中該超平面為 6,如請求項5之裝置 面0 一線性可分離超平 薄搜尋,且中該搜❹組包含—向量量 8如_ 等碼溥元素表示信號參數。 戈盆他項1之裝置,其中該搜尋模組在一最】妁 或其他誤差度量 仕最小均方 9·如請求们之裝Γ 搜尋該複數個㈣元素。 數之輪人㉟向量/其中該等碼薄元素包含表示語 10.—種拽尋— 巧尋之方法,其包含: ί s 145606.doc 201108205 提供具有複數個碼薄元素之—行動台碼薄,其中該等 碼薄7L素經分離為—第_搜尋區間及—第二搜尋區間; 判定一輸入向ft之—所要碼薄元素是在胃第一搜尋區 間中或是在該第二搜尋區間中;及 n. 12. 13. 14. 15. 16. 在"亥所判定的搜尋1 Μ中搜尋該所要的碼薄元素。 Θ求項1G之方法’其中該等元素係、使用—支援向量機 而^離為-第-搜尋區間及—第二搜尋區間。 求項11之方法,其中該支援向量機經組態以自該複 數個碼薄元素計算一線性分類器中該線性分類器為 一超平面。 如。月求項10之方法,且中命膽_措4 Α人 八中°亥搜咢杈組包含一向量量化碼 '咢,且該等碼薄元素表示信號參數。 :睛求項U)之方法,其中該等m素包含表示語音參 數之輸入碼向量。 2 =軟體之電腦可讀取媒體,當執行時,該軟體使 〇玄电恥執行以下動作: :供具有複數個碼薄元素之一行動台碼薄,其中該等 碼薄元素緩合雜或你 '、 、.刀離為-第-搜尋區間及一第二搜尋區間; 間中:::入向量之一所要碼薄元素是在該第-搜尋區 或疋在該第二搜尋區間中;及 ^所判定的搜尋區間中搜尋該所要的碼薄元素。 二1Γ電腦可讀取媒體,其中該等元素係使用-間。$而刀離為-第-搜尋區間及-第二搜尋區 145606.doc 201108205 17. 如請求項16之電腦可讀取媒體,其’ 態以自該複數個碼薄元夸〃、省支援向量機經組 性分類器為-超平面。、*線性分類器’其中該線 其中該搜尋模組包含一 元素表示信號參數。 其中該等碼薄元素包含 18. 如請求項15之電腦可讀取媒體, 向量量化碼簿搜尋,且該等碼薄 19. 如請求項15之電腦可讀取媒體, 表示語音參數之輸入碼向量。 20. —種器件,其包含: 一行動台碼薄的構 一搜尋區間及一第 用於提供具有複數個碼薄元素之 件,其中該等碼薄元素經分離為二第 二搜尋區間; 用於判定一輸入向量之一 尋區間中或是在該第二搜尋 用於在該所判定的搜尋區間中 構件。 所要喝薄元素是在該第一 區間中的構件;及 搜尋該話語碼薄元素 搜 的 21. 22. 士叻求項20之器件,其中該等元素係使用一支援向量機 而分離為一第一搜尋區間及一第二搜尋區間。 如請求項2丨之器件,其中該支援向量機經組態以自該複 數個碼薄元素計算—線性分類器,其中該線性分類器為 一超平面。 23. 如請求項20之器件,其中該搜尋模組包含一向量量化碼 薄搜尋’且該等碼薄元素表示信號參數。 24. 如請求項21之器件’其中該等碼薄元素包含表示語音參 數之輸入碼向量。 145606.doc 201108205 25. —種根據—處理程序組態之碼簿產品,其包含: 提供複數個碼簿元素,其中該等碼薄元素經分離為一 第一搜尋區間及一第二搜尋區間; 判定—輸入向量之一所要的話語碼薄元素是在該第一 搜尋區間中或是在該第二搜尋區間中;及 在該所判定的搜尋區間中搜尋該所要的話語碼薄元 素。 26·^請求項25之碼薄產品’其中該等元素係使用一支援向 量機而分離為一第一搜尋區間及一第二搜尋區間。 如請求項26之碼薄產品,其中該支援向量機經組態以自 該複數個碼薄元素計算一線性分類器,其中該線性分類 益為^超平面。 28. 女咕求項27之碼薄產品,其中該搜尋模組包含一向量量 化碼簿搜哥,且該等碼薄元素表示信號參數。 29. U項25之碼薄產品,其中該等碼薄元素包含表示語 音參數之輸入碼向量。 145606.doc
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/349,327 US20100174539A1 (en) | 2009-01-06 | 2009-01-06 | Method and apparatus for vector quantization codebook search |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201108205A true TW201108205A (en) | 2011-03-01 |
Family
ID=41698451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098145596A TW201108205A (en) | 2009-01-06 | 2009-12-29 | Method and apparatus for vector quantization codebook search |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100174539A1 (zh) |
TW (1) | TW201108205A (zh) |
WO (1) | WO2010080663A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9253481B2 (en) | 2012-01-13 | 2016-02-02 | Qualcomm Incorporated | Determining contexts for coding transform coefficient data in video coding |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2959079B1 (fr) * | 2010-04-20 | 2012-05-11 | Commissariat Energie Atomique | Dispositif de quantification, recepteur de signaux radiofrequence comprenant un tel dispositif et procede de quantification |
US8422802B2 (en) | 2011-03-31 | 2013-04-16 | Microsoft Corporation | Robust large-scale visual codebook construction |
US20130031063A1 (en) * | 2011-07-26 | 2013-01-31 | International Business Machines Corporation | Compression of data partitioned into clusters |
US9015044B2 (en) * | 2012-03-05 | 2015-04-21 | Malaspina Labs (Barbados) Inc. | Formant based speech reconstruction from noisy signals |
TR201911121T4 (tr) * | 2012-03-29 | 2019-08-21 | Ericsson Telefon Ab L M | Vektör niceleyici. |
DK2958913T3 (en) | 2013-02-20 | 2018-11-05 | Lg Chemical Ltd | SPHINGOSIN-1 PHOSPHATRECEPTOR AGONISTS, PROCEDURES FOR PREPARING IT AND PHARMACEUTICAL COMPOSITIONS CONTAINING SAME AS AN ACTIVE AGENT |
KR101348959B1 (ko) * | 2013-06-04 | 2014-01-14 | 한국항공우주연구원 | 4 행로 나무구조 벡터 양자화 방법 |
US10567060B2 (en) * | 2014-10-24 | 2020-02-18 | Samsung Electronics Co., Ltd. | Efficient vector quantizer for FD-MIMO systems |
US10008218B2 (en) | 2016-08-03 | 2018-06-26 | Dolby Laboratories Licensing Corporation | Blind bandwidth extension using K-means and a support vector machine |
CN106373576B (zh) * | 2016-09-07 | 2020-07-21 | Tcl科技集团股份有限公司 | 一种基于vq和svm算法的说话人确认方法及其系统 |
US10373630B2 (en) * | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
CN109416748B (zh) * | 2017-11-30 | 2022-04-15 | 深圳配天智能技术研究院有限公司 | 基于svm的样本数据更新方法、分类系统和存储装置 |
US11308152B2 (en) * | 2018-06-07 | 2022-04-19 | Canon Kabushiki Kaisha | Quantization method for feature vector, search method, apparatus and storage medium |
CN112560505A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
US20240242032A1 (en) * | 2021-03-23 | 2024-07-18 | Wells Fargo Bank, N.A. | Systems and methods for unsupervised named entity recognition |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
DE69712537T2 (de) * | 1996-11-07 | 2002-08-29 | Matsushita Electric Industrial Co., Ltd. | Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6332030B1 (en) * | 1998-01-15 | 2001-12-18 | The Regents Of The University Of California | Method for embedding and extracting digital data in images and video |
US6390986B1 (en) * | 1999-05-27 | 2002-05-21 | Rutgers, The State University Of New Jersey | Classification of heart rate variability patterns in diabetics using cepstral analysis |
US6678267B1 (en) * | 1999-08-10 | 2004-01-13 | Texas Instruments Incorporated | Wireless telephone with excitation reconstruction of lost packet |
US7970718B2 (en) * | 2001-05-18 | 2011-06-28 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
US7574351B2 (en) * | 1999-12-14 | 2009-08-11 | Texas Instruments Incorporated | Arranging CELP information of one frame in a second packet |
WO2002035856A2 (en) * | 2000-10-20 | 2002-05-02 | Bops, Inc. | Methods and apparatus for efficient vocoder implementations |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US6785646B2 (en) * | 2001-05-14 | 2004-08-31 | Renesas Technology Corporation | Method and system for performing a codebook search used in waveform coding |
EP1428206B1 (en) * | 2001-08-17 | 2007-09-12 | Broadcom Corporation | Bit error concealment methods for speech coding |
WO2003071522A1 (fr) * | 2002-02-20 | 2003-08-28 | Matsushita Electric Industrial Co., Ltd. | Procede de production de vecteur de source sonore fixe et table de codage de source sonore fixe |
JP3887598B2 (ja) * | 2002-11-14 | 2007-02-28 | 松下電器産業株式会社 | 確率的符号帳の音源の符号化方法及び復号化方法 |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
US7027979B2 (en) * | 2003-01-14 | 2006-04-11 | Motorola, Inc. | Method and apparatus for speech reconstruction within a distributed speech recognition system |
JP2007526669A (ja) * | 2003-06-26 | 2007-09-13 | アジャイル ティーヴィー コーポレーション | ゼロサーチ、ゼロメモリベクトル量子化 |
JP5188990B2 (ja) * | 2006-02-22 | 2013-04-24 | フランス・テレコム | Celp技術における、デジタルオーディオ信号の改善された符号化/復号化 |
-
2009
- 2009-01-06 US US12/349,327 patent/US20100174539A1/en not_active Abandoned
- 2009-12-23 WO PCT/US2009/069484 patent/WO2010080663A1/en active Application Filing
- 2009-12-29 TW TW098145596A patent/TW201108205A/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9253481B2 (en) | 2012-01-13 | 2016-02-02 | Qualcomm Incorporated | Determining contexts for coding transform coefficient data in video coding |
TWI559736B (zh) * | 2012-01-13 | 2016-11-21 | 高通公司 | 於視訊寫碼中判定用於寫碼變換係數資料之上下文 |
US9621894B2 (en) | 2012-01-13 | 2017-04-11 | Qualcomm Incorporated | Determining contexts for coding transform coefficient data in video coding |
Also Published As
Publication number | Publication date |
---|---|
WO2010080663A1 (en) | 2010-07-15 |
US20100174539A1 (en) | 2010-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201108205A (en) | Method and apparatus for vector quantization codebook search | |
KR101190875B1 (ko) | 차원 벡터 및 가변 분해능 양자화 | |
JP6174266B2 (ja) | ブラインド帯域幅拡張のシステムおよび方法 | |
JP2013539548A (ja) | 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
Gupta et al. | Speech bandwidth extension with wavenet | |
CN102158692A (zh) | 编码方法、解码方法、编码器和解码器 | |
JP6096896B2 (ja) | ベクトル量子化 | |
Vali et al. | End-to-end optimized multi-stage vector quantization of spectral envelopes for speech and audio coding | |
Pandey et al. | Optimal non-uniform sampling by branch-and-bound approach for speech coding | |
CA2803273A1 (en) | Encoding method, decoding method, encoding device, decoding device, program, and recording medium | |
CN110291583B (zh) | 用于音频编解码器中的长期预测的系统和方法 | |
US20210287038A1 (en) | Identifying salient features for generative networks | |
Moreau | Tools for Signal Compression: Applications to Speech and Audio Coding | |
So | Efficient block quantisation for image and speech coding | |
Bouzid et al. | Multi-coder vector quantizer for transparent coding of wideband speech ISF parameters | |
Nordén et al. | Companded quantization of speech MDCT coefficients | |
Shoham | Hierarchical vector quantization with application to speech waveform coding | |
CN116631418A (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
Mirrezaie et al. | A particle swarm optimization-based approach to speaker segmentation based on independent component analysis on gsm digital speech | |
Tan et al. | Quantization of speech features: source coding | |
JP5098458B2 (ja) | 音声符号化装置、音声符号化方法、及び、プログラム | |
Kain et al. | Compression of line spectral frequency parameters using the asynchronous interpolation model. | |
Chatterjee et al. | Structured Gaussian mixture model based product VQ | |
Gersho et al. | Vector Quantization II: Optimality and Design | |
Chen et al. | Sub-band Unvoiced/Voiced parameter extraction and efficient quantization for speech signal |