TWI257604B - Method and system for pitch contour quantization in audio coding - Google Patents
Method and system for pitch contour quantization in audio coding Download PDFInfo
- Publication number
- TWI257604B TWI257604B TW093130053A TW93130053A TWI257604B TW I257604 B TWI257604 B TW I257604B TW 093130053 A TW093130053 A TW 093130053A TW 93130053 A TW93130053 A TW 93130053A TW I257604 B TWI257604 B TW I257604B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- segment
- data
- pitch
- spacing
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013139 quantization Methods 0.000 title claims description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000003038 endothelium Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Image Processing (AREA)
Description
1257604 九、發明說明: 【發明所屬之技術領域】 種語音編碼器,尤其是允許 編碼器。 本發明係概括的涉及~ 一相當長的編碼延遲的語音 【先前技術】 在美國’在設計行動電辦已S考制視障者的方 便性。行動電話製造商必f提供視障者適用的使用者介 面。實際上’此意§胃著必需將表單以語音方法顯示。因 此必需儘可能以較少的記憶體儲存這些聲訊函數。基本 上此應用巾考$文字轉換為語^(TTS)的演算法。但是為 了達到合理品質TTS輸出,需要使用大量的資料庫。因 此,對於行動端,TTS不是一種方便的方式。隨者低量 記憶體的使用,不接受由現在之TTS演算法提供的品質。 在一基本上性的語音編碼器中,以稱為訊框的連續 長度的分段處理輸入語音信號。在現在的語音編碼器 中,訊框長度通常為i 0到3 0ms,且從下一訊框起的 5到1 5ms的前視段(lookahead)分段改變使用。訊框可 以更進步分為多個次訊框。對於各一訊框,編碼器決 定輸入信號的參數表示法。量化該參數,且經由一&訊 頻道傳运或儲存在一儲存媒體中。在接收端,解碼器基 於运今的參數架構一同步信號,如圖丨中所示者。 二語音編碼的目的為在一給定編碼參數下辨識一最 =的品質,在對於某些應用中,語音編碼器的發展也考 里到其他性能上問題。除了語音品質及位元速率外,下 1257604 文將更詳細說明的主要特徵包含編碼器的 §fl框的長度+可能的前視段定義), (主要由 記憶體需求,對於頻道錯誤的感應度,聲瑪器的 自動處理,及編碼語音的頻寬。而且,月π雜訊的 可以應料_能階射神触難輪Γΐί碼器必需 行的mrifi大部份實際語音編碼器、必需執 ,間,該間距對應到該基本鮮, 激發線性預估(CELP)方法為基礎的編碼器; 的未發聲部份也9長時段_賴滞(大略對等於該^ 距)〇 在一代表性的語音編碼器中,以規則的間隔估計間 距參數。使用在語音編碼器中的間距估測器可以大略區 分為基礎數類:⑴使用語音之時域特徵的間距估測器, (ii)使用語音的頻域特性的間距估測器(iii)同時使用語音 之時域及頻域特性的間距估測器。 曰 對於間距區域的量化中,大部份習知技術的解決方 式(以規則的間隔估計間距)為使用純量量化。基本上, 對於所有的間距值使用單一的量化器,且也連續傳送參 數。也提出不同的解決方法。而且,使用一純量量化器, 量化每秒的間距值,且在這些之間的數值應用一不同的 量化器編碼。纟某些現有的編碼器中,量化器有兩種模 1257604 f ··無記憶朗鼓預賴型。#與基本的方法比較 這些技術提供某些優點,但是只有部份的冗餘。 要缺點為傳統上應用固定更新參數的量化 技術土本上效率低,此係因為在間距值傳送時存在 =二?ί在間距參數量化中使用的連續更新參數相 二(^ (^UQOHz)以可以處理間距改變快速的 情况。但疋,在間距區域中的快速變動相當少。結 部份的時間使用低的更新參數。 【發明内容】 本發明係有關於典型的的間距區域問題,其中該區 相當地平坦,但是存在某些突發性的快速變純。因此4 可月b架構-分段性的間距區域,該間距區域可以很接近原 來區域的㈣,但是編碼的資訊較少。不編碼該間距區域 中的各個間距,只有對於量化的偏離改變處編碼定義該分 段之間距區域的數點。在未發聲期間,在編瑪器及解碼哭 中使用-固定_訂之間距值。在分段性間轉域中的: 個分段可以是線性或非線性的分段。 因此,依據本發明的第一觀點,一種用於在聲訊編碼 中改進編碼效率的方法’其中編碼聲訊信號以提供指示聲 訊信號的參數,該參數包含間距區域數據,其中包含多個 間距值,忒間距值表示在時間上的聲訊分段,該方法包含 下列步驟.·· ~ / 基於該間距區域資料,產生多個簡化的間距區域分段 候選項,各候選項對應到該聲訊信號的一次分段; 1257604 候選i:::3的::及-或多個先選擇的準則選擇該 用選擇之sk擇之候選項之聲訊信號的次分段中應 項的特徵編竭該間距區域資料。 、異擇^候t明之—貫施例’在聲訊分段中之間距區域由 ^八Θ ’其對應到在聲訊分段中之連續的多個 夕個選擇的候選項由—第—結束點及一第二 二次:疋/,且其中該編碼包含步驟為提供指示開始點 、舅使得允許解碼器基於該資訊而非間距區域資料重 建在聲騎段巾的聲訊信號。在某些連續性之:欠分段中之 間距值的數目等於或大於3。 依據本發明之-實施例,由預先選擇的條件限制該產 生的步驟,使得在各簡化的間距區域分段候選項的在對應 之次分段中之各該間距值之間的偏離小於或等於預先決 定的最大值。 依據本發明之一實施例,該產生的候選項具有不同的 長度,且該選擇係基於分段候選項的長度,且該預先選擇 的準則包含選擇的候選項在分段候選項中具有最大的長 度。 依據本發明之一實施例,該選擇係基於該分段候選項 的長度,且該預先選擇之準則包含:量測的偏離為具有相 同長度的一群候選項中為最小者。 1257604 依據本發明之一實施例,各該簡化的間距區域分段候 選項具有一開始點及一結束點,且該產生的步驟以調整該 分段候選項的結束點的方式進行。 該聲訊包令—語音信號。 依據本發明之第二觀點,本發明提供一種用於編碼聲 訊信號的編碼裝置,該聲訊信號包含間距區域資料,該間 距區域資料包含多個表示時間中之聲訊分段的間距值,該 編碼裝置包含: 一用於接收間距區域資料的輸入端;以及 ,一資料處理模組,可回應該間距區域數據,產生多個 j化的間距區域分段候選項;各候選項對應到該聲訊的一 次分段;其中該處理模組包含: 一演算法,在各個簡化的間距區域分段候撰jg及在對
碼的間距區域數據,該編碼裝 依據本發明之一實施例,該量 該長度指示在次分段中該編碼的間 置尚包含:一儲存裝置,
I操作該儲存裴置以連接到該量 聲訊數據,以將聲訊數據儲存在 1257604 依據本發明之一电f 可操作該輪出端以連;二儲器尚包含-輪出端’ 域數據提料觸赫㈣因此縣碼的間距區 傳送該:碼器尚包含-輸出端以 碼器也基於該編碼的=以 讀取的媒栌弟一硯^,本發明提供一種在一電子可 中〜 =二實現的電腦軟體產品,其在-聲訊編碼裝置 =距==碼裝置提供參數以指示該聲訊,該參數 表示時間中的聲訊分段,該軟==值,-些間距值 距區l以基於該間距區域數據產生多個簡化的間 段Γ5 77又項’各賴選項對應該聲訊巾的-次分 n ’餘在錢簡化的間縣域分段候選項及 在對j冬人分段巾_職之間量測偏離值;以及 2碼器,基於該量剩的偏離及預先選擇的準則選 =Ί項tHiUb允許—量化模組應用該選擇之 候員的特性編碼在聲訊之次分段中的間距區域數據,其 中該聲訊對應到該選擇的候選項。 依據本發明之第四觀點,本發明提供一種用於重建聲 几的解碼裔’其中編碼聲訊以提供指示該聲訊的參數,該 參數包含間距區域數據,該數據包含選擇表示時間中之聲 訊分段的間距值,且其中時間中之聲訊分段中的間距區域 10 !2576〇4 數據由聲訊中的選擇連續的 第二點定義該次分段,該解碼器包含:—第一點及一 據入端,以接收指示定義該次分段之端點的聲訊數 段 重建权組’以基㈣接㈣聲訊數據重建該聲訊分 依據本發明之一實施例,在一電子捭髀由々锯辞$ 數據依im:實施例,經由一通訊頻道傳送該聲訊 中,以接㈣^^據解碼11㈣人以連接到該通訊頻道 包含依據本發明之第五觀點,本發明提供—種電子裝置, 示’其中編碼聲訊以提供指 選ΐΠϊ ’該參數包含間距區域數據,該數據包含 聲訊分段的間距值,且其中時間中之聲 近:又:的Γ距區域數據由聲訊中的選擇連續的次分段 於第二點定義該次分段,因此允許基 、疋義該认分段的端點重建該聲訊分段;以及 予_=^=該端點的聲訊數據且提供聲訊數據 依據本發明之-實施例,本發明提供在一電子媒體中 5己、亲該聲訊’且其中操作該解碼器的輸入項以連接到用於 11 1257604 接收該聲訊數據的電子媒體中。 依據本發明之一實施例,本發明提供經 “ 傳送該聲訊數據,且其中操作該解碼器的輪入C、訊頻道 通訊頻道中,以接收該聲訊數據。 ⑴以連接到該 機:T裝置可以是一行動式的終端機或-用於終端 依據本發明的第六觀點,依據本發明一 包含: 喱逋訊網路, 選擇基地台,以及 選擇與該基地台進行通訊的行動台,其- 至少-台包含:一用於重建一聲訊的解碼器,=台中 訊以提供指示該聲訊的參數,該參數包含 、、扁碼聲 該數據包含選擇表示時間中之聲訊分段的^距:域數據, 時間中之聲訊分段中的間距區域數據由聲訊中二其中 續的次分段近似,由—第—點及—第二點定義連 因此允許基於定義該次分段的端點重建該聲訊刀段, 一輸入端,用於接收指示該端點的聲叙二又;以及 該聲訊數據予簡·。 W轉,且提供 明由下文中的說明及圖2至6可以更進—步瞭解本發 【實施方式】 執行本發明之最佳模式 應用分段間距區域,將具有偏離改 他點傳送到解碼器中。因此,可以參考地 12 1257604 新速率。原則上’架構分段線性區域的方式 改變數達到最小’而在-先指定的限制下 與真的間距區域,,維持該偏離值。為 果;前置作業必需相當長且最適化必需進行大ΐ 二;。可以應用相當簡單的技術而得到相當好 儲^先前;明係基於在#音編碼器中使用的設計,以 儲存先則錄下的聲訊信號。 區域上,線性分段可以得到架構分段間距 有效的最適化技術。對於各個線性分段, 可以達到$不(1^_與真正區域的偏離達到最小者) :二t:瞭解錢性分段邊界外的區域。在此最 的線^段。’需要考量兩種情況:第—缝分段及其他 ,止該第一;段的 已固定,而411= 彳子,該線的開始點 ^而只有该結束點的位置可以最適化。 先前it線性分段的例子中,該程柄開始為選擇該 迭代運算,其方式為考量當該線的結束= ^匕的間距值,其相當接近該第三原始間距值。在已 找出候選項後’試著找出所有可能的開始點及結束點的 13 1257604 °在各個原始的間距位置量測線性表示法的準確 位置點均滿足準確度的準則,則接受該線 距ί區域。而且’如果現在的線性及原始的間 刀又之間的偏離小於在此迭代步驟中接受之其他線中 間 如果 =何-線時’騎擇現在的線作為如今可以找出的最 佳線。如果試出之線中至少一線被接受,採取多於一 =於該分段後的重被程序,而維持該迭代運算 何-項被接受,則結束該最適 ,適化期間發現的最佳結束點作為分段間距區: 距值作為至今該線的之編後選擇第-間 其方式為考量一或多個以點;:後開始迭代運算’ 測線性表科的準確度 =原始㈣距位置量 在所有的這些位置均滿足選的線’如果 段線性區域的-部份。^確度的翔時,則作為該分 離小於在此迭代步驟發♦如果與原始間距區域的偏 結束點的候選項作為^二f的其他的線的話,則選擇 之線中至少一線時,則二:的結束?。如果接受試出 出一或多個間距值後野於兮=迭代運算,其方式為在取 十於§亥分段重複該程序。如果沒有 14 1257604 果山時’則結束該最適化的程序,則選擇在 跌㈣找出的最佳結束點作為分段間距區域的-點0 的理ii述說Γ兩個例子中,可以先完成該迭代運算 ζ 二如果可以使用的連續間距值相當多 (Ί l/h 主耘序。此情況為如果已使用整個的前視段 (lookahead)時’如果結束語音 動作或未發聲語音結祕。笛=疋如果6不 ,,,,^ /v ^ 〇 果日^弟一種情況為限制一單一的 線性箱的取大長度以更有效地編碼該點的位置。對於 這兩種情況,可以對於迭代次數丨設 間的取大牯間瑕小。圖4顯示該迭代運算。 ^找出該分段間距區域的新的線之後,編碼該線成 位70串列的型式。各點必需給^兩數值: 距值,及在區域新點及先前點之_時間距離。;^間 不必對於該區域的第—點編碼時間距離。可以 二 量的量化器方便地編關距值。在使用聲訊機 、 定的編碼器的配置中,使用[l〇g2(imax)]編碼時間距離。如 果需要的話,有可能使用某些沒有耗損的編瑪方式|如 在時間距離值上的Huffman編碼。使用純量旦^ 工 間距值。純量量化器包含3 2階(5位元)^使二石馬該 p(n)=p(n-l)+max 480p(n-l)' 8000 對 其中η從2到3 2,且p(1)=19個樣本。因此, 15 1257604 於低頻率時允許,大的失真’其中已考量人類聲覺的特 性。而且,人類聲訊系統的已知特徵已在對數域中的間 距量化發生執行失真量測而加以利用。 一本發明中考量原始間距區域的分段間距區域的例子 顯示在圖2中’如圖2所示,各線性分段為_連結兩點 之間的直線:一開始點及一結束點。例如圖2所示之分 段間距區域的第二線段為連結t=1.22s的點及t;=29s的點 的直線。在t=1.22s到t=1.29s的時段中的間距值數為8, 包含開始點及結束點。 ’ /為了執行本發明,已分段間㈣域產生該直線編碼 糸統有-額外的模組。如圖3所示,語音編碼系統丄包 含一編碼模組1 〇,其具有一參數語音編碼器丄2以處 理輸入的語音信號成為多個分段。對於各個分段,編碼 态1 2決定咸輸入彳§號的參數表示法1 1 2。這此東^ 可以量化,或是為原始參數的未量化之型式,^視語音 編碼系統而定。一與參數表示法有關的壓縮模組2 〇減 少使用如軟體程式2 2的分段間距區域的間距區域。然 後經由-量化模組2 4在分段n域上的點成為位元資料 1 2 0,其經一編碼兀,或儲存在一儲存介質3 〇中。 在接收機端,使用偏離器4 0以基於在迄今的位元資料 3 0中的資訊產生合成的語音信號14 〇,該位元串指 定分段間距區域及其他的語音參數。 s 在分段間距區域產生模組2 Q中的軟體程式2 2包 含機器可讀取的編碼,其依據圖4之流程圖5 〇 〇處理 16 1257604 m程圖5 〇 〇顯示迭 段 距區域之分段的直線(參考圖2)。各直線有一開始 Ξ = ΪΓ士 ΐ束點Q(Pi)。對於該第一線段,選擇開始 5 m °對於所有的線段,選擇結束點 —點中定位該開始點,則在第二 點上疋位職束點,則從第—點到第二關時段之間有 ;個間距值°因此’在步驟2中卜2。在步驟5 0 4 中’選擇結束ί為接近該時之第二點的間距值時在該間 於第一分段’選擇開始點為在該時之第-點 上或接近的間距值。在步驟5 Q 6中,量測該時 =第二點之時段中的間距值,且量測連結該開始點及 結束點的直線之_偏離。另外,在某些間隔上量測備 偏離:在步驟5 0 8中,該偏離與預定的錯誤值比較以 決定是否現在的直線可以被接受為麵項。如果在該時 段内在某㈣雜處的偏祕過科的錯誤值,則調整 該結束點(如果該分段為第—分段時對於開始點),則 該迭代運算的程序㈣步驟5 Q 6,直到沒有調整為 止。如果接受現在的直線,如步驟5 〇 8中所述者,則 在^驟5 1 Q中與㈣的結果比較,以決定其是否為迄 今取佳的直線。該迄最佳的直線為在财相同丨中直線之 間的絕對偏離的加總為最小者。在步驟5 i 2中儲存迄 今最佳的直線。然後在步驟5 2 〇中調整該結束點,直 到沒有進行任何的調整為止。 當不再作為調整之後,在步驟5 2 〇中,決定是否 17 1257604 驟5 1 2中使用該儲存_ 伸今綠ί 或妓在步驟5 2 6中將丨增加而延 〜、,、奴(否則如步驟5 2 4中所示,現在的i已等於 可能在將{加1後,在步驟5 2 2中沒有可接 、i段的直使用前先1的最佳線作為現在 候遥項數目被限制,如設定一最大的限制, i it/平結束點與樣本點之間的差。在不同結束點之間的 曰同it以設定以限制可能候選項的量。 =需瞭解,在圖2的分段間距區域中,第三線段只 、包合卜11.29s及卜1.3〇s的間距值。此係因為t=1.3〇s 為分開兩語音信號分段的時間點。
必需瞭解只有在步驟中執行結束點或開始點的調 整。例如調整Q(p〇的方式為在量化步驟中增加或減少值 Q(Pih但是,可以以更小或更大的步驟執行該調整。而 且’最長的線或imax的限制可以設定在一大的數目,如 6 4。在此例子中,在開始點及結束點之間的時段(且 因此i)產生相當大的改變。例如,在第四線段中的i等 於5 ’其中第5線段中的i為2 3。但是,如果設定i®ax 為如5,則在大部份或所有線段中的時段(及i)相同。 因此,當i改變且imax假設或為一固定數則均可以應用7 0。而且在步驟5 1 〇中用於選擇最佳候選項的分段候 選項及間距之間的量測偏離可以是絕對差或其他偏離董 測的合。分段候選項的產生為某些準則所限制,如該間 距值及在該分段候選項中對應點之間的預定之最大絕對 18 1257604 差。例如,最大的差可以是5或1 0個量化的步驟,但 是可以是一較小或較大的數目。 而且上述說明的本發明可以加以修改,而不偏離本 發明中修改間距量化的概念。首先,可以使用差值最適 化技術i其次,修改的間距區域不必具有分段線性的特 性’只疋可以維持傳送之間距數即可。第三,用於編碼 間距及時間間隔的量化技術可以被修改。第四,有可能 在間距估計期間架構不同的間距區域。 而且’上述說明之實施例不是本發明的唯一配置。 例如’可以自由選擇在決定新間距區域時使用的最適化 技術。基於,新的間距區域不必為分段線性者。例如有 可能使用量尺(splines),多項式離散餘弦轉換等說明該區 域。例如’一非線性的區域不必具有下列的型式: Q ⑻=Q(P〇)+ai[(Q(Pi)_Q(Po)/(trt。 +a2[(Q(pi)-Q(p〇)/(trt0))2(t-t〇) 2+… ti>tDt〇 在此例子中,當需要更新結束點時,該式適足以提 供舄要要的凋异法以只解碼一次即可得到需要的結果。 一般的說明 、可以將間距區域之最適化的簡化模型的搜尋方式公 化,題化為數學上的最適化問題。假設f(t)表示說明在 範1從0到tmax之間的原始間距區域的函數。而且g⑴ 表:簡化的間距區域’且d(f⑴,g⑴)表示在時間t時兩 個區域之間的偏離。現在將解決的最適化問題為找出簡 19 1257604 f _,_),對於;==小。 八中h(·)定義最大距原始的間距、:tStmax, :偏離。從滿足該兩條件的間距區dt可允許 離的區域函數達到最小化的條件為U,可以使得總偏 D']f(f(〇, m), (1) 選擇此值為最後的解碼區域。 β般"而’上述說明的最適化問題為不可解出者。 Ϊ疋則==距區域模組固定以減少其-般性的 ϊ 解出。例如,在分段間距區域的模型 为i ,g_離改變的點說明函數g(t)°假設如 及、表不第n此類型之點的座標(1釦公^其中n在分 段線性模型中這些點的點數)。該簡化的區域可以在叫 線性分段中定義為: t—t g(t)=qn+—7~(qn+1~-qn)f〇r tn<t<tn+1 ^ ^nj»l (2) 其中KnSN-l。為了使得該定義完整,需要tn<tn+i, 及tN=tmax。除外,需要所有的^值在從q—到如狀 的範圍内。應用此模型,該最適化問題可以簡化以搜尋 說明區域g⑴之點(tn,qn)的集合,其中該g⑴滿足條件⑴ 及(II)且使得式1中的總偏離最小化。現在,定義合理的 20 1257604 假設,即點的座標表示應用有限的解析度表示出,該問 題變得可以解出者,此係因為點被防止在具有有限之可 能的點位置的柵中。此假設不減少該公式的一般性,此 係因為從最適化條件(I)中直接得到有限的準確度。 該問題的解 在最後節中公式化的有限的準確度可以應用多個不 同的方法解出。在此說明兩種解決的方法。第一種方法 在計算上較為複雜,但是均可以找出全區的最適化解, 而第二種方法則較簡單,但是只有得到次最適化的結 果。在兩種說明的方法中,吾人假設使用純量量化以編 碼間距值qn ’應用其編瑪本C={ci ’ C2 ’ cm} ’且時間指 示tn為某一時間單元T的整數倍。而且,吾人假設選擇 C及T,其方式為使得存在一解,且說明故一合理且額外 的假設,即經由將N最小化而使得需要說明該區域的位 元數達到最小(該N為需要定義簡化區域的點數)。 全區的最適化方法 使用下列直接的蠻力運算方法可以得到全區最適化 的解: 步驟1.開始,設定N=1 步驟2.設定N=N+1,可以應用現在的N找出一適當 的分段線性模型,如果是,則進入步驟3。否則進行步 驟2。 步驟3.離開且編碼該簡化的區域。如果具有數個適 當的區域條件,且選擇其中的一個,而使得式1的總偏 21 1257604 離達到最小。 在步驟2的之測試的勃 對所有適當的分段線性區域的丁候f為對於最適产化條件核 ⑴,qi)及(t2,q2)的所有線:、為具有滿足下列式之端點 d(f(tn),qn) <h(f(tn)) ⑶ 在此例子中’時間指示固 本C中選擇出q丨及q2的數值,日&lU t2tmax攸編碼 段。此次’此第一及最後的時間指示 定為二: W ’其中時間指示t2可以在τ到 口 :為0及 ^ ^ ^ ^ ^ 4 [max-丄内庫巳圍内調整, 其級距為T。而且從編碼本c中選擇出qn的數值 地,應用隨意的N ’該簡化的區域包含N _ i =裘 且可以調整時間指示的N_2。 、、艮『生刀I又, 很容易看4上述的演算法中均可以得到最 域候選項,此係因為步驟2中的核對方式匕的& 之故’迭代的減少保證可以滿足條件⑴,而且件j11) 中的總偏離達到最小。但是,也很容易看 + v恥3 尺寸增加,該演算法的複雜也隨著增加。二^問題的 吾人可以聲明在最壞情況下,該演算法在=地說, 選項中其成長如下: 區域候 1257604 在上式中,b指示編碼本項的最大值,其滿足 的條件且m=(tmax/T)-i。 x d中 在實際的例子中,在最壞的情況下,這些變數 是如b=3,且m=62,導致約h9x 1038的區域候選項。= 果,其結論為此理論上的最適化方法可以只使用'在火、、、° 和m為最小者(例如,當b=3及m=8,候選項的最二^ (worstcasenumber)為 5 8 9 8 2 4 ),且因此數 不適於最實際的情況。 去 簡單的次最適化方法 如上所述,如果該標的總是去找出全區最適化八几 線性區域,則最適化的程序需要大量的計算。但是=段 以應用非常簡單且在此節中說明的有效方法(結 度只隨著增加的問題尺寸成線性長成)而得到彳艮好 果。除了簡化外,此方法之一項優點為並沒有馬上严、、、Q 整個間距區域,而是需要一參考小的前置處理即可,理 在簡化方法中的只要構思為—次只有對於—線 分段進行最適化的處理。對於線性的分段,搜尋出田女 長度的線可以使得與真正的區域之間的偏離$ 在相當小的粑圍内,此搜尋不需要使用在線性分段邊界 外之區域的=識。、在此最適化的技術内,存在兩種情況’, 此情況玎以分開為數區域··該第一線性分段及其他的線 性分段。第二線性分段的例子發生在開始進行編碼時、'。 另外,如果對於動作或未發聲的語音沒有傳送間距值的 話,則在’傳送中的這些停止後的第―線性分段落在 23 1257604 兩端最適化。—線性分段的條件中,將線的 性分段的最適,在f—分類的例子中,在先前之線 端點的位置進行最適^定線性的開始點’且因此可以只 佳端點:,的3子中,對於至今找出的線在最 始該程序。铁德二二了及丁中選擇量化的間距值而開 準確度(式3 )以:的得可以滿足需要 化的間距值,在2 ° = ’ 1點的候選項為量 值。在已杓+ 守,、可以相當點接近該原始的間距 lu^ ^ 時間間隔移動線性表示化的精賴,且 應用::滿足準確準則時,則作為分段 ,.^〇H77而且,如果與原始間距區域的偏離 二人驟期間可以接受的其他線時,選擇該線作 t 7找出的最佳線。如果接受候選項的處理期間時, 、-姑。仃迭代程序、,其方式為在將t2增加-級距T後重 硬〜長序。然後如沒有接受任何的線,則該最適化 =序,且選擇在先前迭代期間找出的^點作為分 奴線性間距區域的第一點。 在其他的線性分段的例子中,只有將端胃占的位置最 適化,此係因為在先前線性分段的最適化期間,已固定 24 1257604 ,開;點之,。由選擇在固定開始作定位在τ間距值間 ί ΐη αγ作為至今找出之線的最佳端點而開始 式為考量-或'多個步i,=此’開始該迭代程序’其方 的仗、||逭讦W氐兮旦 即tn=tn-i+2T。對於該線之端點 的候l員了 乂為该1化的間距值, 下的原始間距值,使得可 八田接、在新的tn 則。在找出該候選項後,需要之準確度的準 性分段的鮮。 彡㈣的其他步義似第— 該迭兩::::二:-個原因下可以完』 前結束,而無法增加t 的間距區域在 f使用整個前置緩二以 的傳送時。第二種情音的語音下已停止如 大長度,以更有致地㉝為有可i限制單—線性部份的: 情況,可以考量為經^該點的時間指示。對於該和 端點之間的最大時間矩广於在可,之間距區域及在線1 的流程圖6 0 0中說明雖’而设定-限制t_x。在圖 最適化程序。 匕方法其中顯示單線性分段! 流程圖6 0 〇顯示矣凡 之直線之選擇的迭代不二奴間距區域之線性分段 及-結束點Q(f(tn.))。^序^該直線為一開始·點Q(f(tn-: -結束點Q(f(tn-))迄八p於第一線段,開始點Q(f(tn-!)) 7已得到之相同i之直線之間的絕 25 1257604 偏離的最小合者。在步驟6 0 2中得到迄今得到之的最 佳線。在步驟6 0 2中再度調整該結束點,直到沒有調 整為止。 當不再需要調整時,在步驟6 2 0中所決定者,此 時η決定是否停止該迭代程序,且在步驟6 1 2中區域 該最佳點作為現在的線段,或者是在步驟6 2 6中,經 由將tn增加Τ而更進一步延伸該線段(除非在步驟6 2 4中決定現在的tn已等於tmax)。有可能在將tn增加T 後’在步驟6 2 2中決定不接受任何的延伸線。在此例 子中,具有先前tn的最佳線作為現在線段的直線。可以 限制候選項的數目。其方式為對於點結束點與樣本值的 最大限制加以設定。在不同之結束點的候選項之間的間 隔可以設定以限制可能之模型的數量。 實際的配置 在本文中介紹之間距區域的量化技術已包含在對於 儲存應用之實際的語音編碼器中。該編碼器以相當低的 位元速率約lkbps)下操作,且在可變期間的時段下(介 於2 0到6 4 〇ms)中8KHz的輸入語音。在實際的應 用中,使用簡單的次最適化方法,且在最適化區域中只 有考量在現在之分段下的間距區域。在未發音或不動作 的時段中’不編碼任何的間距貧訊。將變數T設定為1 〇ms,其等於該間距的估計間隔。而且,使用由估計的 間距值pk (在1 〇ms的間隔)下形成的離散區域,大略 估計連續的間距區域。結果,最適化條件(II)改變為·· 26 1257604 d(pk ^ g(kT) <h(pk) for all 0 <k <tmax/1 (5) 另外,應用下式的額外化而估計式1的總失真的最 小化: 5Hg(kT)), (6) k=0 其中定義函數d為絕對錯誤,gpd(x,y)二|x-y|。 以下式決定對於給定之間距值下之最大可允許之編 碼錯誤的函數h : h(pk)=max(2? 480pk/8000) (7) 在間距值qn的純量量化中使用的編碼本C的產生中 使用相同的函數。使用CfCp+hCc^)計算3 2階(5位元) 之編碼本C的項目,其中d=19。此編碼本涵蓋在編碼器 中使用的間距周期範圍,且與實驗的結果製造吻合。而 且,該編碼本及函數h大略依循critical band的理論,其 中人耳的頻率解析度假設隨著頻率的增加而減少。為了 更進一步增強知覺的能力,在時數域中進行量化。 在使用不同量化期間對於一分段編碼時間指示,但 是對於分段的第一點並不編碼時間距離,此係因為總 是為0之故。在不同的編碼方式中,使用其與先前在級 距T的時間指數之間的時間距離編碼一給定的時間指 數。更精確地說,經由將(tn-ty/TO-l轉換為二位元的表 不5其中包含〔l〇g2(imax- 1)〕位元的方式編碼一給定的tn 27 1257604 度。在:1:=:以允許現在之線性線段的最大長 率。如果將編碼之時的技巧以增加編碼的效 指示t“且使ΐ一3於空:寺間指示,而非時間 例子中,-較佳使:二=基礎程序的 此歸_編碼’且直接對時間;離=編碼方法, ::===均及最大的匕 r!=域中辨識,:編;;:== 重。沒有應用初聽者測試間距量化的技術,但 的聽力測试顯,存的編碼器包含 工 的減少大叫(只對於間距,則該j 但是變基:::區域相當的平整’ 的分段間距區域,但是;編之= 28 1257604 量化偏離改變之分如距區域的點。 碼器同時減少-固定的内訂:間距 值而且w間距頻率低時,聽力可 ,,尸的偏離。在可以今聽覺充:量 :二=:可以實際上減少位元 ί確的程度接近傳統上在5_ 兀里化态,母秒1 0 0間距區域)下摔作的間距 法,有減少將位元=\的I㈣配置本發明中說明的方 ^减少將位TL速率更進—步減少到約8 s。 本發明的主要應用包含: 速率。有可⑧使用比習知技術的技術還要低的平均更新 -可以在解碼H巾架構分段間距區域,其使得 可以很接近真正的間距區域。 、 的敏=發明考量人耳在低間距頻率下,對於間距改變 〜本發明的技術可以減少位元速率。 現在的應用一額外的處理單元進行侧 編碼明存應用’其成功地在預錄聲訊的語音 聲訊。所得的應用中,可以在電腦上記錄及編碼 且解碼:::速率位元串儲存在行動終端機上儲存 、、、 通汛網路,如圖6所示,提供低速率的位 29 1257604 元串。圖6的示意圖顯示一通訊網路,該網路用於編碼 與預錄之聲訊機構及類似應用相關的編碼器,係依據本 發明進行。如該圖所示,網路包含多個基地台(BS),其 連接一切換之二次台(NSS),也可以連結到其他的網路。 該網路尚包含多個可以與基地台通訊的行動台(MS)。行 動台可以是一行動終端機(MS),通常稱為一完全的終端 機。行動台可以是一用於該終端機的模組,而沒有顯示 器,鍵盤,電池,盒子等。行動台也可以包含一解碼器 4 0,以接收來自壓縮模組2 0的位元串120 (參見 圖3)。該壓縮模組20可以定位在該基地台中,該二 次台中或在其他的網路中。 雖然文中已應較佳實施說明本發明,但熟本技術者 需了解可對上述加以更改及變更而不偏離本發明的精神 及觀點。 30 1257604 【圖式簡單說明 圖1的方塊圖顯示習知技術中的語音編碼系統。 圖2為依據本發明實施例之分段式間距區域的例子。 圖3的方塊圖顯示一依據本發明實施例的語音編碼 系統。 圖4的流程圖顯不對於產生^一分段式間距區域的迭 代處理的例子。 圖5的流程圖顯示一迭代程序的例子,係基於一最適 的簡化模式產生分段性的間距區域。 圖6的示意圖顯示可以實現本發明之通訊網路。 【主要元件符號說明】 12 編碼 2 0 2 2 壓縮 2 4 量化器 軟體 3 0 通訊頻道或儲存媒體 4 0 解碼器 4 1 量化器 4 2 軟體 5 0 行動端 11 0 輸入信號 112 參數 14 0 同步信號 31
Claims (1)
1257604 十、申請專利範圍: 1.用於在聲訊編碼中改進編碼效率的方法,其中編碼 聲訊信號以提供指示聲訊信號的參數,該參數包含間距 區域數據,其中包含多個間距值,該間距值表示在時間 上的聲訊分段,該方法包含下列步驟: 基於該間距區域資料,產生多個簡化的間距區域分 段候選項,各候選項對應到該聲訊信號的一次分段; 量測各個簡化之間距區域分段候選項及該對應之次 分段中之語音之間的偏離; 基於該量測的偏離及一或多個先選擇的準則選擇該 候選項中之一項;以及 在對應到該選擇之候選項之聲訊信號的次分段中應 用選擇之候選項的特徵編碼該間距區域資料。 2·如申請專利範圍第1項之方法,其中在聲訊分段中 之間距區域由選擇的候選項近似,其對應到在聲訊分段 中之連續的多個次分段,各該多個選擇的候選項由一第 一結束點及一第二結束點所定義,且其中該編碼包含步 驟為提供指示開始點的資訊,使得允許解碼器基於該資 訊而非間距區域資料重建在聲訊分段中的聲訊信號。 3·如申請專利範圍第1項之方法,其中在某些連續之 次分段中間距值的數目等於或大於3。 32 1257604 10.如申請專利範圍第2項之方法,其中至少一選擇 的候選項為非線性分段。 11·一種用於編碼聲訊信號的編碼裝置,該聲訊信號 包含間距區域資料,該間距區域資料包含多個表示時間 中之聲訊分段的間距值’該編碼裝置包含: 一用於接收間距區域資料的輸入端;以及 一資料處理模組,可回應該間距區域數據,產生多 個簡化的間距區域分段候選項;各候選項對應到該聲訊 的一次分段;其中該處理模組包含: 一演算法,在各個簡化的間距區域分段候選項及在 對應之次分段中之該間距值之間可得到量測之偏離值; 以及 一演算法,基於該量測的偏離及先選擇的準則,選 擇該候選項中之一項。 12. 如申請專利範圍第11項之編碼裝置,其中,尚包 含: 一量化模組,用於回應該選擇的候選項,而在對應 的選擇候選項之聲訊的次分段中,應用該選擇之候選項 的特徵,編碼該間距區域數據。 13. 如申請專利範圍第12項之編碼裝置,其中該量化 34 1257604 模組提供聲訊數據,該長度指示在次分段中該編碼的間 距區域數據,該編碼裝置尚包含: 一儲存裝置,可操作該儲存裝置以連接到該量化模 組,因此可以接收該聲訊數據,以將聲訊數據儲存在一 聲訊媒體中。. 14. 如申請專利範圍第12項之編碼裝置,其中尚包含 一輸出端,可操作該輸出端以連接到一儲存體,因此將 編碼的間距區域數據提供予該儲存體以儲存該數據。 15. 如申請專利範圍第12項之編碼裝置,其中尚包含 一輸出端以傳送該編碼的間距區域數據到該解碼器中, 因此允許該解瑪器也基於該編碼的間距區域數據’重建 該聲訊。 16. —種在一電子可讀取的媒體中實現的電腦軟體產 品,其在一聲訊編碼裝置中使用,該聲訊編碼裝置提供 參數以指示該聲訊,該參數包含間距區域數據,該數據 包含多個間距值,這些間距值表示時間中的聲訊分段, 該軟體產品包含: 一編碼器,以基於該間距區域數據產生多個簡化的 間距區域分段候選項,各該候選項對應該聲訊中的一次 分段; 一編碼器,用於在各該簡化的間距區域分段候選項 35 1257604 及在對應的次分段中的間距值之間量測偏離值;以及 一編碼器,基於該量測到的偏離及預先選擇的準則 選擇該候選項中的一項,因此允許一量化模組應用該選 擇之候選項的特性編碼在聲訊之次分段中的間距區域數 據,其中該聲訊對應到該選擇的候選項。 17·—種用於重建聲訊的解碼器,其中編碼聲訊以提 供指示該聲訊的參數,該參數包含間距區域數據,該數 據包含選擇表示時間中之聲訊分段的間距值,且其中時 間中之聲訊分段中的間距區域數據由聲訊中的選擇連續 的次分段近似,由一第一點及一第二點定義該次分段, 該解碼器包含: 一輸入端,以接收指示定義該次分段之端點的聲訊 數據;以及 一重建模組,以基於該接收的聲訊數據重建該聲訊 分段。 18. 如申請專利範圍第17項之解碼器,其中在一電子 媒體中記錄該聲訊,且其中操作該解碼器的輸入項以連 接到用於接收該聲訊數據的電子媒體中。 19. 如申請專利範圍第17項之解碼器,其中經由一通 訊頻道傳送該聲訊數據,且其中操作該解碼器的輸入以 連接到該通訊頻道中,以接收該聲訊數據。 36 1257604 20. —種電子裝置,包含 一用於重建一聲訊的解碼器,其中編碼聲訊以提供 指示該聲訊的參數,該參數包含間距區域數據,該數據 包含選擇表示時間中之聲訊分段的間"距值、且其中時間 中之聲訊分段中的間距區域數據由聲訊中的選擇連續的 次分段近似,由一第一點及一第二點定義該次分段,因 此允許基於定義該次分段的端點重建該聲訊分段;以及 一用於接收指示該端點的聲訊數據且提供聲訊數據 予該解碼器的輸入端。 21. 如申請專利範圍第20項之電子裝置,其中在一電 子媒體中記錄該聲訊,且其中操作該解碼器的輸入項以 連接到用於接收該聲訊數據的電子媒體中。 22. 如申請專利範圍第20項之電子裝置,其中經由一 通訊頻道傳送該聲訊數據,且其中操作該解碼器的輸入 以連接到該通訊頻道中,以接收該聲訊數據。 23. 如申請專利範圍第20項之電子裝置,其中尚包含 一行動終端機。 24.—種通訊網路,包含: 選擇基地台,以及 37 1257604 選擇與該基地台進行通訊的行動台,其中該行動台 中至少一台包含:一用於重建一聲訊的解碼器,其中編 碼聲訊以提供指示該聲訊的參數,該參數包含間距區域 數據,該數據包含選擇表示時間中之聲訊分段的間距 值,且其中時間中之聲訊分段中的間距區域數據由聲訊 中的選擇連續的次分段近似,由一第一點及一第二點定 義該次分段,因此允許基於定義該次分段的端點重建該 聲訊分段;以及 一輸入端,用於接收指示該端點的聲訊數據,且提 供該聲訊數據予該解碼器。 38
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/692,291 US20050091044A1 (en) | 2003-10-23 | 2003-10-23 | Method and system for pitch contour quantization in audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200525499A TW200525499A (en) | 2005-08-01 |
TWI257604B true TWI257604B (en) | 2006-07-01 |
Family
ID=34522085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW093130053A TWI257604B (en) | 2003-10-23 | 2004-10-05 | Method and system for pitch contour quantization in audio coding |
Country Status (8)
Country | Link |
---|---|
US (2) | US20050091044A1 (zh) |
EP (1) | EP1676367B1 (zh) |
KR (1) | KR100923922B1 (zh) |
CN (1) | CN1882983B (zh) |
AT (1) | ATE482448T1 (zh) |
DE (1) | DE602004029268D1 (zh) |
TW (1) | TWI257604B (zh) |
WO (1) | WO2005041416A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100571831B1 (ko) * | 2004-02-10 | 2006-04-17 | 삼성전자주식회사 | 음성 식별 장치 및 방법 |
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
EP2676266B1 (en) | 2011-02-14 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based coding scheme using spectral domain noise shaping |
AR085218A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio |
AR085361A1 (es) | 2011-02-14 | 2013-09-25 | Fraunhofer Ges Forschung | Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio |
AU2012217269B2 (en) | 2011-02-14 | 2015-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
SG192721A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
RU2586838C2 (ru) | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
TWI476760B (zh) | 2011-02-14 | 2015-03-11 | Fraunhofer Ges Forschung | 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法 |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
EP2954516A1 (en) | 2013-02-05 | 2015-12-16 | Telefonaktiebolaget LM Ericsson (PUBL) | Enhanced audio frame loss concealment |
EP3333848B1 (en) | 2013-02-05 | 2019-08-21 | Telefonaktiebolaget LM Ericsson (publ) | Audio frame loss concealment |
MX2021000353A (es) | 2013-02-05 | 2023-02-24 | Ericsson Telefon Ab L M | Método y aparato para controlar ocultación de pérdida de trama de audio. |
EP3398191B1 (en) * | 2016-01-03 | 2021-04-28 | Auro Technologies Nv | A signal encoder, decoder and methods using predictor models |
CN111081265B (zh) * | 2019-12-26 | 2023-01-03 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
CN112491765B (zh) * | 2020-11-19 | 2022-08-12 | 天津大学 | 基于CPM调制的仿鲸目动物whistle伪装通信信号的识别方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1203906A (en) * | 1982-10-21 | 1986-04-29 | Tetsu Taguchi | Variable frame length vocoder |
US5042069A (en) * | 1989-04-18 | 1991-08-20 | Pacific Communications Sciences, Inc. | Methods and apparatus for reconstructing non-quantized adaptively transformed voice signals |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
US5592585A (en) * | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
US5991725A (en) * | 1995-03-07 | 1999-11-23 | Advanced Micro Devices, Inc. | System and method for enhanced speech quality in voice storage and retrieval systems |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
US5673361A (en) * | 1995-11-13 | 1997-09-30 | Advanced Micro Devices, Inc. | System and method for performing predictive scaling in computing LPC speech coding coefficients |
US6026217A (en) * | 1996-06-21 | 2000-02-15 | Digital Equipment Corporation | Method and apparatus for eliminating the transpose buffer during a decomposed forward or inverse 2-dimensional discrete cosine transform through operand decomposition storage and retrieval |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6169970B1 (en) * | 1998-01-08 | 2001-01-02 | Lucent Technologies Inc. | Generalized analysis-by-synthesis speech coding method and apparatus |
US6246672B1 (en) * | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
US6529730B1 (en) * | 1998-05-15 | 2003-03-04 | Conexant Systems, Inc | System and method for adaptive multi-rate (AMR) vocoder rate adaption |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6094629A (en) * | 1998-07-13 | 2000-07-25 | Lockheed Martin Corp. | Speech coding system and method including spectral quantizer |
US6119082A (en) * | 1998-07-13 | 2000-09-12 | Lockheed Martin Corporation | Speech coding system and method including harmonic generator having an adaptive phase off-setter |
US6078880A (en) * | 1998-07-13 | 2000-06-20 | Lockheed Martin Corporation | Speech coding system and method including voicing cut off frequency analyzer |
US6163766A (en) * | 1998-08-14 | 2000-12-19 | Motorola, Inc. | Adaptive rate system and method for wireless communications |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6714907B2 (en) * | 1998-08-24 | 2004-03-30 | Mindspeed Technologies, Inc. | Codebook structure and search for speech coding |
US6385434B1 (en) * | 1998-09-16 | 2002-05-07 | Motorola, Inc. | Wireless access unit utilizing adaptive spectrum exploitation |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6256606B1 (en) * | 1998-11-30 | 2001-07-03 | Conexant Systems, Inc. | Silence description coding for multi-rate speech codecs |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6434519B1 (en) * | 1999-07-19 | 2002-08-13 | Qualcomm Incorporated | Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6496798B1 (en) * | 1999-09-30 | 2002-12-17 | Motorola, Inc. | Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message |
US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
US6907073B2 (en) * | 1999-12-20 | 2005-06-14 | Sarnoff Corporation | Tweening-based codec for scaleable encoders and decoders with varying motion computation capability |
AU2001286534A1 (en) * | 2000-08-18 | 2002-03-04 | Bhaskar D. Rao | Fixed, variable and adaptive bit rate data source encoding (compression) method |
US6850884B2 (en) * | 2000-09-15 | 2005-02-01 | Mindspeed Technologies, Inc. | Selection of coding parameters based on spectral content of a speech signal |
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
-
2003
- 2003-10-23 US US10/692,291 patent/US20050091044A1/en not_active Abandoned
-
2004
- 2004-09-29 KR KR1020067007799A patent/KR100923922B1/ko not_active IP Right Cessation
- 2004-09-29 CN CN200480034310XA patent/CN1882983B/zh not_active Expired - Fee Related
- 2004-09-29 EP EP04769508A patent/EP1676367B1/en not_active Not-in-force
- 2004-09-29 AT AT04769508T patent/ATE482448T1/de not_active IP Right Cessation
- 2004-09-29 WO PCT/IB2004/003166 patent/WO2005041416A2/en active Search and Examination
- 2004-09-29 DE DE602004029268T patent/DE602004029268D1/de active Active
- 2004-10-05 TW TW093130053A patent/TWI257604B/zh not_active IP Right Cessation
-
2008
- 2008-04-25 US US12/150,307 patent/US8380496B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US9324333B2 (en) | 2006-07-31 | 2016-04-26 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
Also Published As
Publication number | Publication date |
---|---|
CN1882983A (zh) | 2006-12-20 |
WO2005041416A2 (en) | 2005-05-06 |
WO2005041416A3 (en) | 2005-10-20 |
US8380496B2 (en) | 2013-02-19 |
KR20060090996A (ko) | 2006-08-17 |
US20050091044A1 (en) | 2005-04-28 |
KR100923922B1 (ko) | 2009-10-28 |
TW200525499A (en) | 2005-08-01 |
ATE482448T1 (de) | 2010-10-15 |
CN1882983B (zh) | 2013-02-13 |
EP1676367A4 (en) | 2007-01-03 |
DE602004029268D1 (de) | 2010-11-04 |
US20080275695A1 (en) | 2008-11-06 |
EP1676367A2 (en) | 2006-07-05 |
EP1676367B1 (en) | 2010-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI257604B (en) | Method and system for pitch contour quantization in audio coding | |
JP4611424B2 (ja) | ピッチ遅延曲線調整を使って情報信号を符号化する方法および装置 | |
KR101445296B1 (ko) | 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램 | |
JP6368029B2 (ja) | 雑音信号処理方法、雑音信号生成方法、符号化器、復号化器、並びに符号化および復号化システム | |
TWI605448B (zh) | 產生帶寬延伸訊號的裝置 | |
US10311884B2 (en) | Advanced quantizer | |
JP2014016625A (ja) | オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法 | |
JP4489959B2 (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
CN103229234B (zh) | 音频编码装置、方法以及音频解码装置、方法 | |
TW200407845A (en) | Method for speech processing in a code excitation linear prediction (CELP) based speech system | |
JP5222452B2 (ja) | 音響信号の符号化の知覚的改善 | |
JPH0850500A (ja) | 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法 | |
JP5323295B2 (ja) | マスク済み閾値表現方法、再構成方法、及びそのシステム | |
KR102353050B1 (ko) | 스테레오 신호 인코딩에서의 신호 재구성 방법 및 디바이스 | |
JP2003323200A (ja) | 音声符号化のための線形予測係数の勾配降下最適化 | |
WO2020001569A1 (zh) | 立体声信号的编码、解码方法、编码装置和解码装置 | |
JP3715417B2 (ja) | 音声圧縮符号化装置,音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Nurminen et al. | Efficient technique for quantization of pitch contours | |
JP2004180058A (ja) | デジタルデータの符号化装置および符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |