TW200417262A - Bandwidth-adaptive quantization - Google Patents

Bandwidth-adaptive quantization Download PDF

Info

Publication number
TW200417262A
TW200417262A TW092121852A TW92121852A TW200417262A TW 200417262 A TW200417262 A TW 200417262A TW 092121852 A TW092121852 A TW 092121852A TW 92121852 A TW92121852 A TW 92121852A TW 200417262 A TW200417262 A TW 200417262A
Authority
TW
Taiwan
Prior art keywords
frequency
vector
quantization
signal
spectrum
Prior art date
Application number
TW092121852A
Other languages
English (en)
Inventor
Khaled Helmi El-Maleh
Ananthapadmanabhan Arasanipalai Kandhadai
Sharath Manjunath
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW200417262A publication Critical patent/TW200417262A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Optical Communication System (AREA)

Description

200417262 玖、發明說明: 【發明所屬之技術領域】 本發明係關於通訊系統,且更明確地說係關於通訊系統 之寬頻信號之傳輸。 【先前技術】 無線通訊之領域具有許多應用,其中包含,例如,無線 電話,呼叫器,無線用戶迴路,個人數位助理(PDA),網際 網路電話,與衛星通訊系統。一特別重要之應用是用於遠 端用戶之細胞.式電話系統。在本文中,π細胞式π系統這個 術語涵蓋使用細胞式或個人通訊服務(PCS)頻率之系統。用 於此種細胞式電話系統之各種無線介面已受到開發,其中 包含,例如,分頻多重進接(FDMA),分時多重進接(TDMA), 與分碼多重進接(CDMA)。伴隨之,各種國内與國際標準已 受到建立,其中包含,例如,先進行動電話服務(AMPS), 全球行動系統(GSM),與中間標準95 (IS-95)。IS-95與其之 衍生標準,IS-95A,IS-95B,ANSI J-STD-008(在本文中經 常統稱為IS-95),與建議之高資料速率系統是由電信工業協 會(TIA)與其他知名標準組織所發表。 藉由使用IS-95標準所組配之細胞式電話系統運用CDMA 信號處理技術,以提供高效率與強健之細胞式電話服務。 實質上藉由使用IS-95標準所組配之細胞式電話系統範例描 述於美國專利第5,103,459號與第4,901,307號,且前二專利 係指配給本發明之權利人並在此提及該二專利以供參考。 一運用CDMA技術之系統範例是cdma2000 ITU-R無線傳輸 87356 200417262 技術(RTT)#疋交書(在本文中稱為cdma2〇〇〇),且cdma2〇〇〇是 由TIA所發表。Cdma2000之標準提供於IS_2〇〇〇之草案且已 獲得TIA批准。另一 CDMA標準是W-CDMA標準,且此標準 具體描述於第三代夥伴計畫”3Gpp”,文件號碼為3G 丁§ 25.211,3G TS 25.212,3G TS 25.213,與 3G TS 25.214。 前文所引述之電信標準只是可受到建構之各種通訊系統 之一些通訊系統的範例。該等系統之大多數系統受到組配 以與傳統之陸地有線電話系統共同運作。在傳統之陸地有 線電話系統中,傳輸媒體與終端之頻寬是限制成為4〇〇〇赫 炫(Hz)。語音一般是在3〇〇 Hz至3400 Hz之窄範圍内傳送, 且控制與信令架空是在此範圍以外傳送。有鑑於陸地有線 電話系統之實體限制,細胞式電話系統之信號傳播是在該 等相同之窄頻率限制之下受到建構,以致起源於一細胞式 用戶單元之電話可傳送至一陸地有線單元。但是,細胞式 電話系統能夠傳送具有較寬頻率範圍之信號,因為需要一 窄頻率範圍之貫體限制不存在於細胞式系統。使用寬頻信 號可提供對於細胞式電話之終端用戶之聽覺很重要的聲音 品質。因此,在細胞式電話系統中傳送寬頻信號之興趣已 變得更受注目。用於產生具有較寬頻率範圍之信號之一標 準範例發表於文件G.722 ITU-T,名稱為”7kHz Audi〇-Coding within 64 kBits/s”,且是於 1989年公佈。 在細胞式系統中傳送寬頻信號需要修改系統,例如信號 壓縮技術裝置之改良。運用藉由擷取相關於人類語音產生 之模型之參數的技術來壓縮語音之裝置稱為語音編碼器。 87356 200417262 語音編碼器分割輸入之語音信號成為時間區塊,或分析時 框。語音編碼器一般包含一編碼器與一解碼器。編碼器分 析輸入之語音時框以擷取某些相關之參數,且接著量化該 等參數成為二進位表示,亦即一組位元或一二進位資料封 包。資料封包經由通訊頻道傳送至接收器與解碼器。解碼 器處理資料封包,解量化該等封包以產生該等參數,且使 用該等解量化之參數來重新合成語音時框。 語音編碼器之功能是藉由移除語音固有之所有自然冗餘 來壓縮數位化語音信號成為低位元速率信號。數位壓縮是 藉由下列方式來達成:利用一組參數來表示輸入語音時框, 且運用量化以利用一組位元來表示該等參數。如果輸入語 音時框具有%個位元,且語音編碼器所產生之資料封包具 有N。個位元,則語音編碼器所達成之壓縮因數是C^Nj/N。。 挑戰是如何維持解碼語音之高聲音品質,且同時達成目標 之壓縮因數。語音編碼器之性能決定於語音模型,或前述 之分析與合成程序之組合表現得多好,與參數量化程序在 目標位元速率每時框乂位元之下表現得多好。語音模型之 目標因此是,藉由每一時框使用一組小數目之參數,捕捉 語音信號之精髓,或目標聲音品質。 對於寬頻編碼器,信號之額外頻寬需要高於傳統窄頻信 號之編碼速率。因此,需要新的位元速率降低技術以降低 寬頻聲音信號之編碼位元速率,且不會犧牲關聯於增加之 頻寬之南品質。 【發明内容】 87356 -8- 200417262 本案提出方丰丨 之編碼速率,且“,以用於降低寬頻語音與聲音信號 -適應性顏宽二”信號之聽覺品質。在-方面, …、見向量量化器受到展現,其中包含··一頻譜内 用於決定關聯於一頻譜之至一 信號特徵;龙中7刀析S域疋- ,^ μ仏唬特欲顯示一聽覺上不重要信號存在 或一聽覺上重要和· %六—.t 夏要“虎存在,與-向量量化 器受到組配以估捫脾、人、、s , 成Π里里化 /用關聯於孩至少一分析區域之信號特徵, 號特徵顯示一聽覺上不重要信號存在,則選擇 性不要为配量化位元給該至少一分析區域。 方面—用於降低語骨編碼器之位元速率之方法 受到展現,且今+、土 4人.上、 上 邊万法包含·決足一頻譜之一區域之一頻率 哀減是否存在;不要量化關聯於該頻率衰減區域之多個係 數;、使㈤予員4決定之碼簿來量化剩餘之頻譜。 在另一方面,一用於增進通過語音編碼器之聲 聽覺品質的方法受到展現,且該方法包含:決定一㈣之 :區域之-頻率衰減是否存在;不要量化關聯於該頻^衰 減區域(多個係數;重新分配原來應用以表示該頻率 區域化位元;與使用—超碼簿來量化剩餘之頻t 其中該超碼埠包含原來應用以表示該頻率衰減區域之: 多個量化位元。 寺 【實施方式】 如圖1所示,無線通訊網路10通常包含多個遠端合(也稱 為用戶單元或行動台或用戶設備)12a_12d,多個基地A 稱為基地台收發器(BTS)或節點B)14a_14e,_基土地台= 87356 200417262 器(BSC)(也稱為無線網路控制器或封包控制功能16),一行 動交換中心(MSC)或交換器18,一封包資料服務節點(PDSN) 或網路互連功能(IWF) 20,一公用交換電話網路(PSTN) 22(—般是電話公司),與一網際網路協定(IP)網路24(—般是 網際網路)。為簡化起見,四遠端台12a-12d,三基地台14a-14c,一 BSC 16,一 MSC 18,與一 PDSN 20受到展示。熟悉 本技術領域者應可理解:可存在任何數目之遠端台12,基 地台 14,BSC 16,MSC 18,與 PDSN 20。 在一實例中,無線通訊網路10是一封包資料服務網路。 遠端台12a-12d可為一些不同類別之無線通訊裝置之任一裝 置,例如可攜式電話,連接至執行以IP為基礎之網路瀏覽 應用程式之筆記型電腦的細胞式電話,具有關聯於免持式 車上箱之細胞式電話,執行以IP為基礎之網路瀏覽應用程 式之個人資料助理(PDA),一包含於可攜式電腦之無線通訊 模組,或一固定位置通訊模組,例如可能出現於無線用戶 迴路或讀表系統之通訊模組。在最廣義之實例中,遠端台 可為任何類別之通訊單元。 遠端台12a-12d可有利受到組配以執行一或更多無線封包 資料協定,例如,描述於EIA/TIA/IS-707標準之協定。在一 特定實例中,遠端台12a-12d產生欲前往IP網路24之IP封包, 且使用一點對點協定(PPP)來封裝IP封包成為訊框。 在一實例中,IP網路24耦接至PDSN 20,PDSN 20耦接至 MSC 18,MSC耦接至 BSC 16與 PSTN 22,且 BSC 16經由有 線方式耦接至基地台14a-14c,並組配成為根據許多已知協 87356 -10- 200417262 定<任一協定來傳送語音及/或資料封包,其中包含例如, El,T1,非同步傳輸模式(ATM),網際網路協定(Ip),點對 點協疋(PPP),訊框中繼,高位元速率數位用戶線路, 非對稱數位用戶線路(ADSL),或其他通屬之數位用戶線路 設備與服務(XDSL)。在另一實例中,BSC16直接_MDSN 20 ’且MSC 18未耦接至PDSN 2〇。 在無線通訊網路10之典型運作中,基地s14a_l4c接收及 :調變來自進行電話,網路瀏覽,或其他資料通訊之各個 遠端台12a_12d之上鏈信號集合。—給定基地台14a_14c所接 收之每一上鏈信號皆是在該基地台14a_14c内受到處理。每 一基地台14a-14c可藉由下列方式與多個遠端台12a_Ud進行 通訊:調變及傳送下鏈信號集合至遠端台12a_12d。例如, 如圖1所示,基地台同時與第一及第二遠端台i2a,i2b 進行通訊,且基地台14c同時與第三及第四遠端台l2c,nd 進行m訊。合成之封包轉送至BSC 16,且BSC 16提供電話 資源分配與行動管理功能,其中包含一特定遠端台l2a]2d 、黾居自基地口 14 a-14c至另一基地台14 a-14c之軟式交遞 的協調。例如,遠端台12c正同時與二基地台14b,丨“進行 通汛。最終,當遠端台12c移動至距離該二基地台之一 14c 夠遠時,該通電話將交遞至另一基地台14b。 如果傳輸是一傳統電話,則BSC 16將導引接收之資料至 MSC 18 ’且MSC 18提供額外選徑服務以界接pSTN 22。如 果傳輸是以封包為基礎之傳輸,例如欲通往ιρ網路24之資 料連結’則MSC 18將導引資料封包至PDSn 20,且PDSN 20 87356 -11- 200417262 將傳送該等封包至IP網路24。此外,BSC 16將直接導引該 等封包至PDSN 20,且PDSN 20傳送該等封包至IP網路24。 在WCDMA系統中,無線通訊系統組件之術語有所不同, 但功能則相同。例如,基地台也可稱為運作於UTMS陸地型 無線進接網路(U-TRAN)之無線網路控制器(RNC),其中 UTMS是全球行動電信系統之頭字語。 一般而言,類比語音信號至數位信號之轉換是由編碼器 來執行,且轉換數位信號回到語音信號是由解碼器來執行。 在一 CDMA系統範例中,一包含一編碼部份與一解碼部份 之語音編碼器共同位於遠端台與基地台内。一語音編碼器 範例描述於美國專利第5,414,796號,名稱為’’Variable Rate Vocoder1’,且該專利指配給本發明之權利人並在此提及該 專利以供參考。在一語音編碼器中,一編碼部份擷取相關 於人類語音產生之一模型之參數。該等擷取之參數接著受 到量化及經由一傳輸頻道受到傳送。一解碼部份使用經由 該傳輸頻道所接收之該等量化參數以重新合成該語音。此 模型不斷改變以準確塑模隨時間而變之語音信號。 因此,語音被分割成為時間區塊或分析時框,且在該等 區塊或時框中該等參數受到計算。接著對於每一新時框, 該等參數受到更新。在本文中,’’解碼器’’這個字意謂可用 以轉換經由傳輸媒體來接收之數位信號之任何裝置或一裝 置之任何部份。”編碼器”這個字意謂可用以轉換聲音信號 成為數位信號之任何裝置或一裝置之任何部份。因此,本 文所述之該等實例可利用CDMA系統之語音編碼器,或另 87356 -12- 200417262 外,利用非CDMA系統之編碼器與解碼器,來建構。 碼激發線性預測編碼(CELP)法使用於許多語音壓縮演算 法,其中使用一濾波器來塑模語音信號之頻譜大小。濾波 器是修改一輸入波形之頻譜以產生一輸出波形之裝置。此 種修改之特徵是轉移函數H(f)=Y(f)/X(f),且轉移函數表示 修改之輸出波形y(t)在頻域上與原始之輸入波形X(t)的關 係。 藉由適當之滤波器係數,一通過滤波器之激發信號將導 致一極為近似語音信號之波形。最佳激發信號之選擇不會 影響本文所述之該等實例之範圍,且將不再加以討論。因 為濾波器之係數是使用線性預測技術針對每一語音時框來 計异’所以濾波器隨後稱為線性預測編碼(Lpc)濾波器。該 等濾波器係數是轉移函數之係數: /⑻=1-念#-1,其中L是LPC濾波器之階數。 /=1 一旦LPC濾波器係數Ai受到決定,則該等LPC濾波器係數 受到量化及傳送至一目的地,且該目的地將使用該等接收 之參數於一語音合成模型。 一用於傳送該等LPC濾波器之係數至目的地之方法涉及 轉換該等LPC濾波器係數傳送成為線頻譜對(LSp)參數,且 該等參數,而非該等LPC滤波器係數,接著受到量化及傳送。 在接收器中,量化之LSP參數受到轉換成為Lpc濾波器係數 以用於阳曰合成模型。因為LSp參數具有優於參數之量 化特性,所以量化通常是在LSP域中受到執行。例如,量化 之LSP參數之排序特性保證合成之Lp⑽波器將是穩定的。 87356 -13- 200417262 LPC係數至LSP係數之轉換與使用LSP係數之好處為眾所 知,且詳細描述於前所提及之美國專利第5,414,796號。 但是,LSP係數之量化是本發明之興趣所在,因為Lsp係 數量化可以多種不同方式來執行,且每一種方式是用於達 成不同之設計目標。通常,二方法之一是用於執RLpc或 係數之量化。第一方法是純量量化(SQ)且第二方法是向量 量化(VQ)。該二方法在本文中是藉由Lsp係數來描述,但是, 應可理解薇二方法也可應用於1^(:係數與其他類別之濾波器 係數。LSP係數在本技術領域也稱為線頻譜頻率且 用於語音編碼之其他類別之濾波器係數包含,但未受限於, 導抗頻譜對(isp)與離散餘弦轉換(DCT)。 假設一 LSP係數集合^{\},其中i=1,2,…,l,可用 於塑模一語音時框。如果純量量化受到使用,則每一分量& 個別文到里化。如果向量量化受到使用,則集合{X…卜^, 2,…,L}疋做為一整個向量χ,且向量X接著受到量化。 純量量化在計算上較VQ簡單,^需要極大數目之位元以 達成可接文之性旎位準。向量量化更為複雜,但是需要較 之4元預才亦即可用以表示量化向量之位元之數目。 例如,在典型<LSP量化問題中,其中係數之數目Ε等於1〇 且位兀預异4大小是ν=:3〇,則使用純量量化意謂每一係數 而刀配3位元。因此,每一係數只具有8種可能之量化值, 而此會導致非常差之性能。如果向量量化受到使用,則全 # Ν—30位兀將用以表示一向量,而此允許23。個可能候選 值’且-向里之表不可自該等候選值中選出。 87356 14- 200417262 但是,在2,固可能之候選值中搜尋最佳之匹配值不是藉 由任何#際系統之資源所能達成。換句話說,直接VQ法不 適用於LSP量化之實際建構。據此,二種其他vq技術之變 型,分裂VQ(SPVQ)與多級VQ(MSVQ^泛受到使用。 SPVQ藉由分裂直接Vq法成為_組較小之^法來降低量 化之複雜度與記憶體需求。在SPVQf,輸人向量χ被分裂 成為-些子向量 目,且每一子向量xj是使用直接VQ法分別受到量化。圖2Α 是SPVQ法之方塊圖。例如,假設SPVQ法是用於量化一向 里,其中孩向量之長度L = 10並具有位元預算N=3〇。在一建 構中’輸入向量X被分裂成為3子向量ΧΑΧΑ), (V#6) ’與ΧβχΑΧΑ。)。每一子向量皆是藉由三直 接VQ之-來量化,其中每一直接VQ使用1〇位元。因此量化 碼簿包含H)24輸人項或,,碼向量"。在此範例中,記憶體使 用量正比於2W碼向量乘以10字組/碼向量=1〇,24〇字組。此 外,搜尋複雜度受到等量降低。但是,因為每一輸入向量 只有1024種選擇,而非^,(^,叫咖種選擇’所以此種 SPVQ法之性能劣於直接VQ法。應注意的是··在spvQ量化 器中’在-高維(L)空間中搜尋之能力由於分維空間 成為較小之子空間而喪失。因此,完全運用L維輸入向量之 全邯分量間之關聯性的能力受到喪失。 、奶VQ法提供低於SPVq法之複雜度與記憶體使用量,因 為里化是在許多級受到執行。輸入向量維持原始長度L。每 -級之輸出是用以決定一差向量’且該差向量被:入至下 87356 -15- 200417262 一級。在每一級中,差向量是使用一相當小之碼簿來近似。 圖2B是MS VQ法之方塊圖。例如,在一範例中,一6級MS VQ 是用於量化一 LSP向量,且該LSP向量之長度為10並具有30 位元之位元預算。每一級使用5位元,以導致一具有32碼向 量之碼簿。令Xi是第i級之輸入向量,且Yi是第i級之量化輸 出,其中Yi是自第i級之VQ碼簿CBi中取得之最佳碼向量。 接著,下一級之輸入將是差向量Xi+fXi-Yi。如果每一級獲 得分配5位元,則每一級之碼簿將包含25 = 32碼向量。 使用多級允許輸入向量可一級一級受到近似。在每一級 中輸入動態範圍變得愈來愈小。計算複雜度與記憶體使用 量正比於6級乘以32碼向量/級乘以10字組/碼向量=1920字 組。因此,MS VQ法具有低於SPVQ法之複雜度與記憶體需 求。MSVQ之多級結構也提供跨越廣大變異範圍之輸入向量 統計值之強健性。但是,由於碼簿之大小受到限制且由於 碼簿之搜尋之π貪婪π本質,所以M S V Q之性能只是次最佳。 MSVQ在每一級中尋找輸入向量之’’最佳”近似,產生一差向 量,且接著在下一級中尋找該差向量之”最佳”表示。但是, 吾人觀察到:每一級之最佳表示之決定不一定意謂最終之 結果將是最接近原始,第一輸入向量之近似。在每一級中 只能選擇最佳候選者之缺乏彈性有害於此方法之總體性 能。 對於SPVQ與MSVQ之弱點之一解決方案是結合該二向量 量化法成為一方法。一結合之建構是預測型多級向量量化 (PMSVQ)法。類似於MSVQ,每一級之輸出是用於決定一差 87356 -16- 200417262 向量,且該差向量被輸入至下一級。但是,每一級之輸入 受到近似成為一群組之子向量,例如前文針對SPVQ法所 述,而非近似每一級之每一輸入成為一完整向量。除此之 外,每一級之輸出受到儲存以用於該方法之末端,其中每 一級之輸出與其他級之輸出一起受到考慮,以決定初始向 量之”最佳”總體表示。因此,PMSVQ法優於單一 MSVQ法, 因為關於’’最佳”總體表示向量之決定被延後至最後一級之 末端。但是,由於多級結構所產生之頻譜扭曲之數量,所 以PMSVQ法不是最佳。 另一結合之建構是分裂多級向量量化(SMSVQ),且SMSVQ 描述於美國專利第6,148,283號,名稱為’’METHOD AND APPARATUS USING MULTI-PATH MULTI-STAGE VECTOR QUANTIZER”,且在此提及該專利以供參考,且該專利是 指配給本發明之權利人。在SMSVQ法中,向量被分裂成為 許多子向量,而非使用一整個向量來做為第一級之輸入。 每一子向量接著是透過一多級結構來處理。因此,此量化 法具有多個並聯,多級結構。每一級之每一輸入子向量之 維度可維持相同,或可進一步分裂成為更小之子向量。 對於具有寬頻信號之時框做為輸入之語音編碼器,由於 塑模寬頻信號所需之維度較高,所以LSP係數之量化需要多 於窄頻信號之位元數目。例如,塑模一寬頻信號時框需要 一較高階之LPC濾波器,而非對於窄頻信號所使用之1 0階 LPC濾波器,亦即轉移函數具有10濾波器係數。在一寬頻語 音編碼器之建構中,一具有16係數以及32位元之位元預算 87356 -17- 200417262 之LPC濾波器受到使用。在此建構中,直接VQ碼簿搜尋將 需要搜尋232個碼向量。應注意的是:LPC濾波器之階數與 位元預算是可受到調整之系統參數,且不會影響本文之該 等實例之範疇。因此,該等實例可與具有較多或較少之接 頭之濾波器一起受到使用。 本文所述之該等實例是用於產生一適應性頻寬量化法, 以用於量化一寬頻語音編碼器所用之頻譜表示。例如,此 適應性頻寬量化法可用於量化LPC濾波器係數,LSP/LSF係 數,ISP/ISF係數,DCT係數或聲譜係數,而前述係數皆可 做為頻譜表示。其他範例也存在。此新適應性頻寬量化法 可用於降低編碼聲音寬頻信號所需之位元數目,且同時維 持及/或改良合成之寬頻信號之聽覺品質。該等目標是藉由 下列方式來達成:使用一信號分類法與一頻譜分析法來可 變式分配位元,且該等位元將用於表示頻譜之特定部份。 適應性頻寬量化法之原理可受到延伸以應用於多種其他向 量量化法,例如前所提及之向量量化法。 在第一實例中,時框内之聲音信號之分類受到執行,以 決定是否該聲音信號是語音信號,非語音信號,或無作用 語音信號。無作用語音信號之範例是靜音,背景雜訊,或 字組之間之停頓。非語音信號可包含音樂或其他非人類之 聲音信號。語音可包含有聲語音,無聲語音或暫態語音。 存在多種方法可用於決定時框所承載之聲音活動之類別, 以例如時框之能量含量,時框之週期性等因數為基礎。 有聲語音是展現相當高程度之週期性之語音。音調週期 87356 -18- 200417262 是語音時框之一分量且可用於分析及重建時框之内容。無 聲語音一般包含子音聲音。暫態語音時框一般是有聲與無 聲語音之間之變遷。無法歸類成為有聲或無聲語音之語音 時框被歸類成為暫態語音。熟悉本技術領域者應可理解任 何合理之分類法皆可受到使用。 分類語音時框是有利的,因為不同之編碼模式可用於編 碼不同類別之語音,以導致一共享頻道,例如通訊頻道, 之頻寬之更有效率運用。例如,因為有聲語音是週期性且 因此高度可預測,所以一低位元速率,高度預測型編碼模 式可用於編碼有聲語音。分類之最終結果是決定用於承載 信號參數之語音編碼器輸出時框之最佳類別。在前所提及 之美國專利第5,414,796號之可變速率語音編碼器中,參數 是以語音編碼器時框來承載,且視信號之分類而定,該等 時框分別稱為全速率時框,半速率時框,1/4速率時框,或 1/8速率時框。 一使用語音分類來選擇用於承載一語音時框之參數之語 音編碼器時框類別的方法展現於共同未決之美國專利申請 第 09/733,740號,名稱為,,METHOD AND APPARATUS FOR ROBUST SPEECH CLASSIFICATION”,且在此提及該專利 申請以供參考,且該專利申請是指配給本發明之權利人。 在此共同未決之專利申請中,一聲音活動檢測器,一 LPC分 析器,與一開迴路音調估測器受到組配以輸出資訊,且一 語音分類器使用該資訊來決定各種過去,現在與未來之語 音時框之能量參數。該等語音時框能量參數接著是用於更 87356 -19- 200417262 準確及強健地分類聲立 ^耳曰^唬成為語音或非語音模式。 在一輸入時框之聲立 ^ ,耳唬义分類受到執行之後,該輸入 時框4頻瑨内客接荽你ha ,、根據本文所述之實例來加以檢視。 如在本技術領域為眾所a ^ 4所知,一聲音信號通常具有可分_成 為低通,帶通,高通,七册 “、成 ^ 或贡止之頻譜。例如,一有聲组立 信號通常具有低通頻哉, w曰 、"曰而操戽語首信號通常則具有高通 頻譜。對於低通信滎,一相.一 ϋ 頻率衰減發生於頻率範圍之高頻 端。對於帶通信號,相、方丄 、率茨減發生於頻率範圍之低頻端與 頻率範圍之高頻端。對私册 . 于於τ止信唬,頻率哀減發生於頻率 範圍之中央。對於高诵产 ,^ 阿、k唬,頻率哀減發生於頻率範圍之 低頻端。在本文中,,n玄^ 、、 、 乂、率茨減’’這個術語意謂頻譜之大小 在一窄頻率範圍内,式 , 4另外,在頻1晉之一區域内,大幅下 降,其中大小低於一碎服技 、、y 、 5-限值。這個術語之實際定義決定於 該術語用於本文之環境。 二等5例是用表決定聲骨信號之類別與聲音信號所展現 之乂、π之颁別以選擇性刪除參數資訊。原來應分配給刪 除之參數資訊之該等位元接著可重新分配給剩&參數資訊 之里化,而此導致合成之聲音信號之聽覺品質的改良。另 外,原來應分配給刪除之參數資訊之該等位元可不列入考 慮,亦即該等位元未受到傳送,以導致位元速率之總體下 降。 在一貫例中,預先決定之分裂位置是設定於某些衰減預 期會發生之頻率,由於聲音信號之分類。在本文中,頻譜 之分裂位置也稱為分析區域之邊界。分裂位置是用於決定 87356 -20- 200417262 輸入向量X應如何分裂成為-些,,子向量"Xj,j = 1,2,, Ns ’如同前述之spv〇法 ··· 係數接著受到捨棄,^ π指定之刪除位置之子向量的 受到傳、 該等捨棄之係數之位元可未 ^ 3新分配給剩餘子向量係數之量化。 :如’假設-語音編碼器受到組配以使用— =來塑模一聲音信號時框。進-步假設,在SPVQ法中 、有6係數《子向量是用以描述低通頻率分量,— 係數=子向量是用以描述帶通頻率分量,且—具有4係數 子向量是用以.描述高通頻率分 ’、 位元之碼向量,第-子: 子向量碼簿包含8- .g向里弟-子向量碼簿包含位元之碼向量,且 弟三子向量碼簿包含6-位元之碼向量。 例是祕決定是否該分裂向量之m即該 —K ,洛在—頻率衰減區。如果存在頻率衰诘, 藉由聲音信號分類法來決定,則該特定子向量受到检^ 在—實例中,捨棄之子向量降低f要傳送通過=道 1向量位元之數目。在另—實例中,原來分配給捨= 子向量之該等碼向量位元重新分配給剩餘之子向量 面展現之範例中,如果分析時框承載一低通信號,且兮: 通信號在5 kHz具有衰減頻率,則根據適應性頻寬法之二 例,6位元未用於傳送碼簿資訊,或另外,該等6碼^二 重新分配給剩餘之碼簿,以致第—子向量碼簿 碼向量,且第二子向量碼簿包含u_位元碼向量。:種= 之建構可利用-嵌人式碼簿來建構以節省記憶體。—歲入 式碼簿法是一組較小之碼簿嵌入於一較大碼簿之方法广入 87356 -21- 200417262 —嵌入式碼簿可如同圖3受到組 石匡a曰 』府 ^碼溥310包含2m 馬向I。如果—向量需要一低 吾仆 加π a、、 几< ^兀預算以用於 ,J可自孩超碼簿中擷取一大 320 了闩、山 人」小於2M炙嵌入式碼簿 〇。不同艾肷入式碼簿可在每一 旦hL ^ . 次T刀配給不同之子向 里。此汉计可提供高效率之記憶體節省。 圖:二廣義之適應性頻寬量化法之方塊圖。在步驟_, 刀斤時匡係根據-語音或非語音模式來分麵 ㈣„分㈣’且該分析器使用;; ❶訊來分裂信號之頻譜成為多個分析區域。在步驟㈣, 頻譜分析器決定是否該等分析區域之任-區域具有頻率衰 減。如果沒有任何分析區域具有頻率衰減,則在步驟化, 關聯於此分析時框之該等LPC係數皆受到量化。如果任何分 析區域具有頻率衰減,則在步驟’關聯於該等頻率衰減 區域之該等LPC係數皆未受到量化。在—實例中,程式流前 進土步^ 440,其中只有未關聯於頻率衰減區域之LPC係數 受到量化及傳送。在另—實例中,程式流前進至步驟450, 其中原來預留給頻率衰減區域之該等量化位元重新分配給 關聯於其他分析區域之係數之量化。 圖5A是校準於低通頻譜(圖5B),高通頻譜(圖5C),帶止 頻爾(圖5D),與帶通頻譜(圖5£)之16係數之表示。假設一分 析時框 < 分類受到執行,且顯示該分析時框承載有聲語音。 /、J此系統和根據本實例之一方面來組配,以選擇低通頻譜 模土來决足疋否分配量化位元給位於分裂位置之分析區 域’在可述範例中分裂位置亦即是5 kHz。接著5 ]^112與8 kHz 87356 -22- 200417262 之間之頻譜受到分析,以決定是否聲音信號之一聽覺上不 重要4份存在於該區域。如果信號在該區域是聽覺上不重 要’則信號參數受到量化及傳送,但未提供信號之不重要 部份之任何表示。未用於表示信號之聽覺上不重要部份之 该等郎省’’位元受到重新分配,以表示信號之剩餘部份之 係數。例如,表丨展示係數與頻率之校準,且該等頻率是針 對低通信號來選擇。對於具有不同頻譜特徵之信號可進行 其他权準。
Hz 維度 3000 8係數 4000 10係數 5000 12係數 6000 14係數 表1 :低通信號之係數校準 如果在5 kHz之上存在一頻率衰減,則承載用於表示低通 k號之資訊只需12係數。根據本文所述之該等實例,剩餘 之4係數無需受到傳送。根據一實例,分配給關聯於,,喪失,, 之4係數之子向量碼薄的該等位元被分派給其他子向量碼 簿。 因此,用於傳輸之位元之數目可受到降低,或信號之剩 餘部份之聲音品質可受到改良。無論是何種情形,捨棄之 子向量導致不會受到傳送之”喪失,,信號資訊。該等實例進 一步是用於置換’’濾波器”於受到捨棄之該等部份,以便利 ~首h號之合成。如果一向量之維度受到捨棄,則維度必 -23- 87356 200417262 須加回到該向量以準確合成聲音信號。
另一實例中, 引來執行一表檢查以決定該平均係數值。在 分析時框之分類提供充份之資訊給接收端以 選擇一適當之濾波器子向量。 屬模型,且無需來自傳送端之進一步資訊。 分佈可做為濾波器子向量。在另一實例中, 在另一實例中,濾波器子向量可為一產生於解碼器之通 例如,一均勻 遽波器子向量 可為過去資訊,例如前一時框之雜訊統計值,且該資訊可 拷貝至目前時框。 應 >王意的是:前述之置換程序適用於傳送側之合成導致 分析迴圈,與接收器之合成程序。 圖6疋一焐首編碼器之功能組件之方塊圖,且該語音編碼 务係根據新的適應性頻寬量化法來組配。一寬頻信號之時 框輸入至LPC分析單元600以決sLpc係數。Lpc係數輸入 至LSP產生單元62〇以決定LSp係數。Lpc係數也輸入至聲音 活動檢測器(VAD) 630,且聲音活動檢測器是組配成為決定 疋a知入^號是語首,非語音或無作用語音。一旦決定語 首存在於分析時框,則LPC係數與其他信號資訊接著輪入至 87356 -24- 200417262 時框分類單元640,以分類成為有聲,無聲,或暫態。時框 分類單元之範例提供於前所參考之美國專利第5,414,796 號。 時框分類單元640之輸出是一分類信號,且該分類信號傳 送至頻譜内容單元65 0與速率選擇單元660。頻譜内容單元 650使用分類信號所承載之資訊以決定信號在特定頻帶之頻 率特徵,其中頻帶之上下限是由分類信號來設定。在一方 面,頻譜内容單元650受到組配成為,藉由比較頻譜之指定 部份之能量與頻譜之全部能量,決定是否頻譜之一指定部 份是聽覺上不重要。如果能量比低於一預先決定之臨限值, 則決定頻譜之指定部份是聽覺上不重要。用於檢視頻譜之 特徵之其他方面也存在,例如零交叉之檢視。零交叉是信 號在每一時框之正負號改變之數目。如果一指定部份之零 交叉之數目很小,亦即小於一預先決定之臨限值,則信號 可能包含有聲語音,而非無聲語音。在另一方面,時框分 類單元640之功能可結合頻譜内容單元650之功能以達成前 文所定之目標。 速率選擇單元660使用來自時框分類單元640之分類資訊 與頻譜内容單元650之頻譜資訊,以決定是否分析時框所承 載之信號最適合由一全速率時框,半速率時框,1/4速率時 框,或1/8速率時框來承載。速率選擇單元660受到組配以 基於時框分類單元640來執行一啟始速率決定。啟始速率決 定接著是根據來自頻譜内容單元650之結果來更改。例如, 如果來自頻譜内容單元650之資訊顯示信號之一部份是聽覺 87356 -25- 200417262 上不重要,則速率選擇單元660可受到組配以選擇一語音編 碼器時框,且該語音編碼器時框小於原來選定以承載該等 信號參數之語音編碼器時框。 在此實例之一方面,VAD 630,時框分類單元640,頻譜 内容單元650與速率選擇單元660之功能可結合於頻寬分析 器655内。 一量化器670受到組配以接收來自速率選擇單元660之速 率資訊,來自頻譜内容單元650之頻譜内容資訊,與來自LSP 產生單元620之LSP係數。量化器670使用時框速率資訊來決 定一用於LSP係數之適當量化法,並使用頻譜内容資訊來決 定特定,有序群組之濾波器係數之量化位元預算。量化器670 之輸出接著輸入至多工器695。 在線性預測編碼器中,量化器670之輸出也是用於產生一 合成導致分析迴圈之最佳激發向量,其中在該等激發向量 之間執行一搜尋來選擇一激發向量,以使信號與合成信號 之間之差最小化。為執行迴圈之合成部份,激發產生器690 必須具有一相同於原始信號之維度之輸入。因此,在置換 單元680,一 ”濾波器”子向量與量化器670之輸出受到結合 以供應一輸入至激發產生器A90,其中該濾波器子向量可根 據前述之該等實例之某一實例來產生。激發產生器690使用 濾波器子向量與來自LPC分析單元600之LPC係數來選擇一 最佳激發向量。激發產生器690之輸出與量化器670之輸出 被輸入至多工器元件695以供結合。多工器695之輸出接著 受到編碼及調變以傳送至一接收器。 87356 -26- 200417262 在一種展頻通訊系統中,多工器695之輸出,亦即一語音 編碼器時框之位元,受到迴旋或渦輪編碼,重複,與擊穿 以產生一序列之二進位碼符號。該等合成之碼符號受到交 織以獲得一調變符號之時框。該等調變符號接著在正交相 位分支受到瓦爾許覆蓋並與一先導序列結合,受到PN展頻, 基頻過濾,並調變至傳送載波信號。 圖7是接收端之解碼程序之功能方塊圖。一接收之激發位 元流700輸入至激發產生器單元710,且激發產生器單元710 產生一 LPC合成單元720將用於合成聲音信號之激發向量。 一接收之量化位元流750輸入至解量化器760。解量化器760 產生頻譜表示,亦即傳送端所用之任何轉換之係數值,且 該頻譜表示將用於產生一 LPC濾波器於LPC合成單元720。 但是,在LPC濾波器受到產生之前,可能需要一濾波器子向 量以補足LPC向量之維度。置換元件770受到組配以接收來 自解量化器760之頻譜表示子向量,及增加一濾波器子向量 至該等接收之子向量以補足一完整向量之維度。該完整向 量接著輸入至LPC合成單元720。 做為該等實例如何運作於既存之向量量化法之一範例, 在下文中以SMSVQ法為例一實例受到說明如下。如前所述, 在SMSVQ法中,輸入向量被分裂成為許多子向量。每一子 向量接著是藉由一多級結構來處理。每一級之每一輸入子 向量之維度可維持相同,或可進一步分裂成為更小之子向 量° 假設一 16階之LPC向量獲得分配32位元之位元預算以進 87356 -27- 200417262 行量化。假設輸入向量受到分裂成&一 刀农成為二子向量: //、 Λ ^ V V ^ Ί; X1 X, 係數數目 6 --Ih2 6 第一級之碼簿位元 6 ------ 第二級之碼簿位元 5 5 沾? V «冰丄彳/v古妥立C Ayf Ο X m ?上 .,一 · . 1 八2 , 大小可為g下· ~ --2. 表2 :直接SMSVQ法 可表所不,有一大小為26碼向量之碼薄,纟中該等碼 向^預❹於第-級之子向量Χι之量化,且有—大小為25 碼向量之碼簿’其中該等碼向量是預留用於第二級之子向 量Xl之量化。同樣地’其他子向量受到分配碼簿位元。所 有32位疋皆是用於表示一寬頻信號之Lpc係數。 如果一實例受到建構以降板朽;、未 降低位兀速率,則頻譜之分析區 域嫌視是否具有一些特徵,例如頻率衰減,以致頻率 :減區域可自量化中受到刪除。假設子向量、位於一頻 10 表3 :位元速率降低法 如則表所π,32位το之量化位元預算可降低至22位^ 且不會喪失聽覺品質。 如果-貫例受到建構以改良某些分析區域之聲音特^ 87356 -28- 200417262 貝1J係數校準兔碼簿大小可為如工」 X…、 χ1ηι X X 係數數目 6 2(]) 6 第一級之碼薄位开i 6 ------------ 6 第二級之係數分裂 3 3 ------ 3 3 弟 >—級之碼淳位元 5 5」 5 5
表4 :品質改良法 :表展示,在第二級之開端,子向量X〆分裂成為二子 向ΐΧπ與xu ’與子向量X2之分裂成為二子向量X”與X”。 士一分裂子向量Xij包含3係數,且每一分裂子向碼 簿包含25碼向量。第二級之每_碼簿透過來自&碼簿之碼 簿位元之重新分配來達到他們之大小。 應注意的是:前述該等實例是用於接收一固定長度之向 里,及用於產生該固定長度向量之一可變長度,量化表示。 此新適應性頻寬法選擇性運用寬頻信號所承載之資訊,以 降低傳輸位元速率或改良信號之聽覺上較重要部份之品 質。前述之該等實例將由下列方式來達成該等目標:降低 量化域之子向量之維度,且同時保留輸入向量之維度以供 進行隨後之處理。 相對地,一些語音編碼器藉由改變輸入向量之順序來達 成位兀降低目標。但是,應注意的是··如果連續時框之濾 波器係數之數目會變動,則直接預測是不可能的。例如, 如果LPC係數之更新是較不頻繁,則傳統之語音編碼器一般 使用過去與目前參數來執行頻譜參數之内插。係數值之間 87356 -29- 200417262 之内插(或擴展)必須受到建構以在諸時框之間達成相同之 LPC濾波器階數,否則諸時框之間之變遷會不平順。LPC向 量之相同階數平移程序必須受到執行以執行預測型量化或 LPC參數内插。請參看,,SPEECH CODING WITH VARIABLE MODEL ORDER LINEAR PREDICTION,’,美國專利第 6,202,045號。該等實例是用於降低位元速率或改良信號之 聽覺上重要部份,且不會導致擴展或縮小LPC係數域之輸入 向量所造成之複雜度增加。 前述該等實例已藉由可變速率語音編碼器來說明。但是, 應可理解前述該等實例之原理可應用於固定速率語音編碼 器或其他類別之編碼器,且不會影響該等實例之範圍。例 如,SPVQ法,MSVQ法,PMSVQ法,或該等向量量化法之 一些替代型式可建構於固定速率語音編碼器,且該等語音 編碼器不使用透過時框分類單元之語音信號之分類。對於 根據前述該等實例所組配之可變速率語音編碼器,信號類 別之分類是用於語音編碼器速率之選擇及用於定義頻譜區 域之邊界,亦即頻帶。但是,其他工具可用於決定固定速 率語音編碼器之頻帶之邊界。例如,固定速率語音編碼器 之頻譜分析可針對分離之指定頻帶來執行,以決定是否信 號之一些部份可故意受到”遗失”。該等”遺失"部份之位元預 算接著可重新分配給信號之聽覺上重要部份之位元預算, 如前所述。 热悉本技術領域者應可理解:資訊與信號可使用多種不 同技術與技藝之任一技術與技藝來表示。例如,在前文中 87356 -30- 200417262 I能受到參考之資料’指令,命令,資訊,信號,位元, 付號、,與小片可藉由下列物件來表示:電壓,電流, 波,磁場或粒子,光場或粒子,或前述物件之任何組合电。 熟悉本技術領域者可進—步理解:針對本文所揭示°之:、 等實例所述之各種示範邏輯區塊,模組,電路,與演算: 步驟可建構成為電子硬體,電腦軟體,或前述二者之組合 為清楚展示硬體與軟體之此互換性,各種示範組件,區:。 模組,電,各,與步驟已概略藉由他們之功能說明於前文, 此種功能應建構成為硬體或軟體決定於特定應用與施加於 總體系統之設計限制。熟悉本技術領域者可對於每—特別 應用以可變4方式來建構前述功能,但是此種建構決定不 應解釋成為會導致偏離本發明之範_。 針對本文所揭示之該等實例所述之各種示範邏輯區塊, 模組,與電路可利用下列組件來建構或執行:通用處理器, 數位信號處理器(DSP),應用專屬積體電路(Asic),現=程 式設計閘陣列(FPGA)或其他程式設計邏輯裝置,離散閘或 電晶體邏輯,離散硬體組件,或設計成為執行本文所述之 功能《前述組件的任何組合。通用處理器可為微處理機, 但是另外,處理器也可為任何傳統處理器,控制器,微控 制器,或狀態機器。處理器也可建構成為計算裝置之組合, 例如,一DSP與一微處理機之組合,多個微處理機,一或更 多微處理機以及一 DSP核心,或任何其他組银。 針對本文所揭示之該等實例所述之一方法或演算法的該 等步驟可藉由下列方式來實現:直接藉由硬體,藉由一處 87356 -31- 200417262 理器所執行之軟體模組,或前述二者之組合。一軟體模組 可位於RAM記憶體,快閃記憶體,ROM記憶體,EPROM記 憶體,EEPROM記憶體,暫存器,硬碟,可移除式軟碟, CD-ROM,或在本技術領域中為眾所知之任何其他型態之 儲存媒體。一示範儲存媒體耦接至處理器,以致處理器可 自該儲存媒體讀取資訊,或寫入資訊至該儲存媒體。另外, 儲存媒體可為處理器之不可或缺部份。處理器與儲存媒體 可位於一 ASIC。該ASIC可位於使用者終端。另外,處理器 與儲存媒體可位於使用者終端以做為離散組件。 所揭示之該等實例之前述說明受到提供以使熟悉本技術 領域者可製造或使用本發明。熟悉本技術領域者應可輕易 提出該等實例之各種修改,且本文所定義之通屬原理可應 用於其他實例,並不會脫離本發明之精神或範曰壽。因此, 未意謂限制本發明於本文所展示之該等實例,而應涵蓋符 合本文所揭示之原理與新奇特點之最大範圍。 【圖式簡單說明】 圖1是一無線通訊系統之圖形。 圖2 A與2B分別是一分裂向量量化法與一多級向量量化法之 方塊圖。 圖3是一後入式碼簿之方塊圖。 圖4是一廣義之適應性頻寬量化法之方塊圖。 圖5A,5B,5C,5D,與5E是分別校準於低通頻譜,高通 頻譜,帶止頻譜,帶通頻譜之16係數之表示圖。 圖6是根據新適應性頻寬量化法來組配之一語音編碼器之 87356 -32- 200417262 功能組件的方塊圖。 圖7是在接收端之解碼程序之方塊圖。 【圖式代表符號說明】 12A,12B,12C,12D 行動台 14A,14B,14C 基地台收發器 16 基地台控制器 18 行動交換中心 20 封包資料服務節點 22 公用交換電話網路 24 IP網路 310 超碼薄 320 後入式碼簿 600 LPC分析單元 620 LSP產生單元 630 聲音活動檢測器 640 時框分類器 650 頻譜分析器 655 頻寬分析器 660 速率選擇器 670 量化器 680 具有濾波器子向量之置換單元 690 激發向量 695 多工器 700 激發位元 87356 -33- 200417262 710 激發向量產生器 720 LPC分析滤波器 750 量化位元 760 解量化器 770 置換元件 87356 -34-

Claims (1)

  1. 200417262 拾、申請專利範園·· 1.-種適應性頻寬向量量化器,包含: 一頻譜内容元件,w m 以用於決定一關聯於—頻哉.s 一分析區域之信號特徵 ,、π 土父 欲,其中該信號特徵_示一夢螯p 了 重要信號存在或一聽贅I見上不 ^見上重要信號存在;及 一向量量化器,該 ^ I I化器受到組配以使用關 該至少-分析區域之^使用關聯於 聽 7F 則選擇性不要分配量化位元給該至 ^^^ φ^0唬特徵,如果該信號特徵顯 見上不重要#號存在, 少一分析區域。 2·如申凊專利範圍第1項 週應性頻寬向量量化哭, 譜内容元件是進一步里化為,其中頻 疋延/用於決定頻譜之該至少一分 至少一邊界條件。 刀析£域< 3.如申請專利範圍第1項乏 包本: 、k應性頻寬向量量化器,進一步 一時框分類元件,以m、人a、 以用於決疋頻譜之該至少一 域之至少一邊界條件。 斤£ 4·如申請專利範圍第3項之 肩見向里量化器,進一步 包含· / 一聲音活動檢測元件,以用於 、上、 疋疋否—分析時框包 含一語首信號或非語音信號;及 :羊延擇7L件’以用於決定—傳輪時框類別,其中 傳輸時框類別決定於聲音活動檢測元件與時框分類元件之 決定。 5·如申請專利範圍第1項之適應性頻貧 乂、見向ΐ量化器,進一步 87356 200417262 包含: 一置換兀件,孩置換元件受到組配以增加一濾波哭 向量來取代沒有分配給該至少一分析區域之量化:元备里 中该置換元件之輸出是用於編碼之一入 /、 、、 、 叩 °成導致分析部 份’或接收端之解碼器之合成部份。 6-如申請專利範圍第1項之適應性頻寬向量量化哭,其中。 量量化器受到進一步組配以分配量化位元給—分析區域向 且該信號特徵顯示一聽覺上重要信號存在,其=該^量化 位元是來自聽覺上不重要之該至少一分析區域。 里 其中向 7·如申請專利範圍第1項之適應性頻寬向量量化哭 量量化器受到進一步組配以執行一分裂向量量化 其中向 8. 如申請專利範圍第1項之適應性頻寬向量量化哭 量量化器受到進一步組配以執行一多級向量量化 其中向 9. 如申請專利範圍第1項之適應性頻寬向量量化器 量量化器受到進-步組配以執行—分裂,多級向量量化: 10. 如申請專利範圍第1項之適應性頻寬向量量化哭,其中向 量量化器受到進-步組配以執行—預測型多級:量量^ 11·如申請專利範圍第6項之適應性頻寬向量量化器,其中向 量量化器受到進一步組配以存取一嵌入4、 一 ΐ/ν入式碼溥來用於分配 量化位元。 12·—種用於降低語音編碼器之位元速率之裝置,包本· 用於決定一頻譜之一區域是否存在頻率衰減之裝置; 用於不要量化關聯於該頻率衰減區域之多個係數之裝 置;及 -2- 87356 200417262 使用一預先決定之碼簿央 1叶不I化剩餘之頻级 13·—種用於增進通過一語音 、 …曰又裝置。 口曰兩碼菇炙一簦立 之方法,包含下列步·驟: 曰聽覺品質 用於決定一頻譜之一區域寻 $疋否存在頻率衰減; 用万;不要量化關聯於該頻率衰 r狄執匕域艾多個. 用於重新分配原來用以表示該‘、數, 化m “、旱哀減區域之多個量 使用一超碼簿來量化剩餘之頻譜,並 原來用以表示該衰減區域之該等多個量化位元^涛包含 14·一種用於降低語音編碼器之位元速率之方法,包八 決定一頻譜之一區域是否存在頻率衰減;匕各· 不要T化關聯於該頻率衰減區域之多個係數· 使用一預先決定之碼簿來量化剩餘之頻譜。 a如申請專利範圍第14項之方法,其中量化㈣之鮮 用向量量化器來執行。 ㈢疋使 16·如申請專利範圍第14項之方法,其中決定頻率衰減是术广 在包含透過語音分類來決定該頻率衰減區域之s 、:子 界。 土 V —邊 其中決定頻率衰減是否 17·如申請專利範圍第1 4項之方法 在包含: 及 決定該區域與頻譜之能量比 比較該能量比與一臨限值。 在包含檢查該區域之零交叉之數目 其中決定頻率衰減是否 18·如申請專利範圍第14項之方法 87356 〇- /zoz 19·一種用於增進一通過一达立 之方法,包含 決定一頻譜之 乏古法,以. 〜、為碼器之聲音信號之聽受品質 區 ^否存在頻率衰減; 不要1化關聯於該頻率衰減區域之多個係數; 重祈刀配原來用以表示該頻率衰減區域之多個量化位 兀;及 起碼專來昼化剩餘之頻譜,其中該超碼簿包含 原來用以表示該衰減區域之該等多個量化位元。 2〇·如申請專利範園第19項之方法,其中決定頻率衰減是否存 在包含透過語音分類來決定該頻率衰減區域之至少一邊 21·如申請專利範園第19項之方法 用向量量化來執行。 其中量化剩餘之_
    87356
TW092121852A 2002-08-08 2003-08-08 Bandwidth-adaptive quantization TW200417262A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/215,533 US8090577B2 (en) 2002-08-08 2002-08-08 Bandwidth-adaptive quantization

Publications (1)

Publication Number Publication Date
TW200417262A true TW200417262A (en) 2004-09-01

Family

ID=31494889

Family Applications (1)

Application Number Title Priority Date Filing Date
TW092121852A TW200417262A (en) 2002-08-08 2003-08-08 Bandwidth-adaptive quantization

Country Status (13)

Country Link
US (1) US8090577B2 (zh)
EP (1) EP1535277B1 (zh)
JP (2) JP2006510922A (zh)
KR (1) KR101081781B1 (zh)
AT (1) ATE407422T1 (zh)
AU (1) AU2003255247A1 (zh)
BR (1) BR0313317A (zh)
CA (1) CA2494956A1 (zh)
DE (1) DE60323377D1 (zh)
IL (1) IL166700A0 (zh)
RU (1) RU2005106296A (zh)
TW (1) TW200417262A (zh)
WO (1) WO2004015689A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100519165B1 (ko) * 2002-10-17 2005-10-05 엘지전자 주식회사 이동 통신 시스템에서 트래픽 처리 방법
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
KR100656788B1 (ko) * 2004-11-26 2006-12-12 한국전자통신연구원 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
US7587314B2 (en) 2005-08-29 2009-09-08 Nokia Corporation Single-codebook vector quantization for multiple-rate applications
US8370132B1 (en) * 2005-11-21 2013-02-05 Verizon Services Corp. Distributed apparatus and method for a perceptual quality measurement service
US20070136054A1 (en) * 2005-12-08 2007-06-14 Hyun Woo Kim Apparatus and method of searching for fixed codebook in speech codecs based on CELP
JP2007264154A (ja) * 2006-03-28 2007-10-11 Sony Corp オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US7966175B2 (en) * 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
WO2010003563A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
US7889721B2 (en) 2008-10-13 2011-02-15 General Instrument Corporation Selecting an adaptor mode and communicating data based on the selected adaptor mode
RU2523035C2 (ru) * 2008-12-15 2014-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудио кодер и декодер, увеличивающий полосу частот
PT2945159T (pt) 2008-12-15 2018-06-26 Fraunhofer Ges Forschung Codificador de áudio e descodificador de extensão de largura de banda
CA2833874C (en) * 2011-04-21 2019-11-05 Ho-Sang Sung Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2012144877A2 (en) * 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
AU2014211539B2 (en) 2013-01-29 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-complexity tonality-adaptive audio signal quantization
CN111554311B (zh) * 2013-11-07 2023-05-12 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
US11704312B2 (en) * 2021-08-19 2023-07-18 Microsoft Technology Licensing, Llc Conjunctive filtering with embedding models

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
EP0331858B1 (en) 1988-03-08 1993-08-25 International Business Machines Corporation Multi-rate voice encoding method and device
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
CA2635914A1 (en) 1991-06-11 1992-12-23 Qualcomm Incorporated Error masking in a variable rate vocoder
JP3188013B2 (ja) 1993-02-19 2001-07-16 松下電器産業株式会社 変換符号化装置のビット配分方法
US5598514A (en) 1993-08-09 1997-01-28 C-Cube Microsystems Structure and method for a multistandard video encoder/decoder
US5764698A (en) 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
JP3071388B2 (ja) 1995-12-19 2000-07-31 国際電気株式会社 可変レート音声符号化方式
FI964975A (fi) 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
JP3147807B2 (ja) * 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
TW408298B (en) 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
FI973873A (fi) 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6148283A (en) 1998-09-23 2000-11-14 Qualcomm Inc. Method and apparatus using multi-path multi-stage vector quantizer
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6570509B2 (en) * 2000-03-03 2003-05-27 Motorola, Inc. Method and system for encoding to mitigate decoding errors in a receiver
JP2002006895A (ja) 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
JP3557164B2 (ja) 2000-09-18 2004-08-25 日本電信電話株式会社 オーディオ信号符号化方法及びその方法を実行するプログラム記憶媒体
US7472059B2 (en) 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system

Also Published As

Publication number Publication date
ATE407422T1 (de) 2008-09-15
CA2494956A1 (en) 2004-02-19
JP2011188510A (ja) 2011-09-22
IL166700A0 (en) 2006-01-15
JP2006510922A (ja) 2006-03-30
RU2005106296A (ru) 2005-08-27
US8090577B2 (en) 2012-01-03
JP5280480B2 (ja) 2013-09-04
EP1535277B1 (en) 2008-09-03
WO2004015689A1 (en) 2004-02-19
DE60323377D1 (de) 2008-10-16
KR101081781B1 (ko) 2011-11-09
KR20060016071A (ko) 2006-02-21
EP1535277A1 (en) 2005-06-01
BR0313317A (pt) 2005-07-12
AU2003255247A1 (en) 2004-02-25
US20040030548A1 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
TW200417262A (en) Bandwidth-adaptive quantization
TW519616B (en) Method and apparatus for predictively quantizing voiced speech
AU2005234181B2 (en) Coding of audio signals
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
RU2351907C2 (ru) Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)
US8019599B2 (en) Speech codecs
EP1356459B1 (en) Method and apparatus for interoperability between voice transmission systems during speech inactivity
US20070171931A1 (en) Arbitrary average data rates for variable rate coders
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
EP1806737A1 (en) Sound encoder and sound encoding method
WO2012081166A1 (ja) 符号化装置、復号装置およびそれらの方法
JP2008535024A (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
KR20060131851A (ko) 통신 장치 및 신호 부호화/복호화 방법
JP4511094B2 (ja) 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置
JP2006510063A (ja) サブサンプルされた励起波形コードブック
US20050143979A1 (en) Variable-frame speech coding/decoding apparatus and method
US20020111804A1 (en) Method and apparatus for reducing undesired packet generation
AU2002235538A1 (en) Method and apparatus for reducing undesired packet generation
CN106133832B (zh) 在装置处切换译码技术的设备及方法
US9418671B2 (en) Adaptive high-pass post-filter
TWI358057B (en) Systems and methods for dimming a first packet ass
Taleb et al. G. 719: The first ITU-T standard for high-quality conversational fullband audio coding
Sahab et al. SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP
Babu et al. High quality voice calls on mobile communication networks: A better user experience