TWI281657B - Method and system for speech coding - Google Patents

Method and system for speech coding Download PDF

Info

Publication number
TWI281657B
TWI281657B TW093126447A TW93126447A TWI281657B TW I281657 B TWI281657 B TW I281657B TW 093126447 A TW093126447 A TW 093126447A TW 93126447 A TW93126447 A TW 93126447A TW I281657 B TWI281657 B TW I281657B
Authority
TW
Taiwan
Prior art keywords
audio
signal
parameter
parameters
audio signal
Prior art date
Application number
TW093126447A
Other languages
English (en)
Other versions
TW200515372A (en
Inventor
Anssi Ramo
Jani Nurminen
Sakari Himanen
Ari Heikkinen
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of TW200515372A publication Critical patent/TW200515372A/zh
Application granted granted Critical
Publication of TWI281657B publication Critical patent/TWI281657B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

1281657 九、發明說明: 【發明所屬之技術領域】 本卷月係大體上與語音編碼器有關,更確切地說,係 與預錄音頻(audio)信息之參數語音編碼器有關。 【先前技術】 當設計行動電話時,在美國將會要求將視力受損者列 ^設計考慮。行動電話廠商必須使電話有—個適用於視力 受損者之使用者介面。在實際上,此意指選項除了顯示於 銀幕外,須能”大聲說出”。將這些音頻信息盡可能儲存於 小的記憶體中是有明顯好處的。普遍地,文字至語音(1以卜 to-speech(TTS))規則系統已被使用於上述應用中。然而, 為達合理tts輸出品質,須要大量的資料庫,因此,tts 並^行動終端機之合宜解決方式。由於使用少量記憶體, 目雨TTS規則系統所提供之品質是不能接受的。 除TTS外,語音編碼器能夠被使用於壓縮預錄信息。 壓縮資訊被儲存並解碼於行動終端機中以產生輸出語 曰為減少δ己憶體之消耗,極低位元率之編碼器是理想之 !擇。為產生輸出語音信號至編碼系統,可採真人發音或 高品質(及高複雜性)TTS規則系統。 雖然語音編碼的一個基本目標在於所給編碼率之 :’達到可能最好之品質,其他性能方面也須兼顧以為特 定應用發展語音編碼。除了語音品f及位元率外,主要特 質尚包括編碼器延遲(主要以框架大小加上一可能預見、 (lookahead)決定之),編碼器之複雜性及記憶體需求,頻 1281657 道錯誤敏感度,對音效背景雜訊之強健性,以及編碼語音 之頻寬。此外’語音編碼器應能夠有效地以不同能量程度 及頻率特性再製輸入語音。 波形匹配及春數語音編碼 語音編碼系統最通常之分類有兩大類型,即波形編碼 器與參數編碼器。波形編碼器,如名所示,是被設計直接 保留被編碼之波形而不須顧及太多語音編碼之特性。因 此,在波形編碼器中,以減少量化錯誤(quantization err()i〇 之方式使重建信號聚合成原來信號。此完美重建特性對於 參數編碼器未必為真,參數編碼經由不同模式使用關於語 音信號之先驗(apriori)資訊,並且試圖保存語音知覺上最 重要之特徵甚於將語音實際波形編碼。在參數編碼器中, 重建錯誤非以減少量化錯誤方式聚合為零。參數編碼器也 稱為資料編碼器(source coder)或聲碼器(v〇c〇der)。典型 地,參數編碼器用於低位元率(1_6千位元),而波形匹配 編碼器使用於較高位元率。 在典型的參數語音編碼器中,輸入語音信號以固定長 度之區段(segment)或框(frame)來處理。基本上,框之長 度是約10-30ms,及一個於後續框約5_15ms之預見(1〇〇k_ ahead)區段也可被採用。框可進一步分數個次框(sub-frames)。 對於每個框, 編碼器 決定輸入信號之參數表示。 該參數被量化成位元流且經由傳送頻道傳送或儲存於儲 存媒體。在接收端,解碼器基於接收到的參數構成—個合 成信號。一典型的語音編碼系統顯示於圖丨。 1281657 春數語音編碼模剞 一常用之參數語音編碼處理方式是將語音信號或聲 道激發(vocal tract excitation)信號以任意振幅 (amplitude)、頻率及相位之正弦波之綜合表示: s(t) = Re 艺ajt)exp(j f〇)m(t)dt + em ), (1) m=l 匕 -* 其中,對於第m個正弦波組元,心,伽(0及故代表振 幅、頻率及固定相位偏移。為求得以框為表示,參數假設 為常數於解析視窗(analysis window)。如此,在一給定框 内之離散信號s(n)約等於:
L s(n) = [Ara cos(ncom +0J, (2) m=l 其中,4及A表示振幅及與頻率音軌(frequency track) 關聯之每個正弦波組元之相位,以及L表示正弦 波組元之數目。在以下的正弦波模型中,被傳送之參數包 括:頻率、振幅及正弦波組元之相位。該等正弦波通常假 設以基本頻率之倍數調和地關聯。於發聲語音 中,⑽對應到發聲者之音調(pitch),但於無聲語音時,^> 沒有實質上的意義。在實際的低位元率正弦波編碼器中, 參數表示通常不同。傳送之參數典型地包括音調(圖2b), 發聲(voicing)(圖2c),振幅(例如,線性預測係數及激發振 幅),以及語音信號(圖2a)之能量(圖2d)。 為替框尋找最適宜正弦波參數,基於理想條件之啟發 1281657 式方法通常被使用。其可藉使用具變化或固定長度之重疊 解析視窗解決。一高解析離散傅立葉轉換(Discrete Fourier Transform(DFT))則由視窗化信號取得。對於發聲語音, 視窗長度應至少為平均音調區間之兩倍半以達到希求之 DFT解析度。為決定每個正弦波組元之頻率,DFT振幅譜 (amplitude spectrum)之簡易峰值拾取法(simple peak picking algorithm)被使用。每個正弦波之振幅及相位則 藉由簡化這些頻率之高解析DFT而得到。 為達平穩發展合成語音信號,使用適當參數内插法 (interpolation)以防止於連續框之框緣間之不連貫。對振幅 而言,線性内插法被廣泛地使用,當發展相位被内插於使 用一例如於接續框介於參數成對之三次多項式之高位元 率。内插頻率可被計算為相位函數之導數。因此,所得到 之模型可定義為: §(n) = Z1 ⑻ c〇s$m ⑻), (3) m=l 其中,怂及§m代表内插振幅及相位輪廓。 高品質相位量化是非常困難於中等或更高之位元 率。有鑑於此,大部分操作6千位元/秒以下之參數語音 編碼器使用線性/隨意相位模型,其中語音信號被分成有 聲與無聲組元。有聲組元之模型化或產生乃使用以下之線 性發展相位模型: 谷(η) =θι +ωιη + (ωι+1 -ωι , (4) !281657 其中,/與π是框之指標與長度1頻率是彼此調和, 咱波相位是單純地為第一諧波相位之/倍。 無聲組元是由隨機相位所產生。 稭使用線性/隨機(randGm)相位模型,原始與合成語音 之間之同步性消失。在r吹相 持於框缝。m 中,同步性祇被維 ''在大口^份之參數語音編碼器中,語立區p古 :^無聲組元是決定於視窗化語音H段之DFT日。基^此表 較低位元率時,—常用==為有聲或無聲。在 所有高於切割以上之頻率歸類為無聲義:=其 割以下之頻率歸類為有聲的。 而所有低於切 逢UtM之主 當觀察一段長的時間(>is) 地非靜定,主要之因素有:振幅變化—=“吕號疋两度 靜止行為、及有聲或無聲行為。缺而一”活動或 (l(M〇s),語音是局部地靜定。扭 田及歷-短的時段 測於時間與頻率兩個領域。m曰軚、、、田微之特徵可被觀 在有聲語音中,波型顯示一相旦 (r:ndancy)。冗餘可用於二里:冗1 間内之穩定性,有聲區段之 该几餘包括:短聘 (non-flatness) > ^ ^ a % ,知1期頻譜之非平度 ib 參數之非均勻機率分佈值 旱之限制,及代表這, =:::=,限…。 小之框無法得到理想之編石 , 1281657 效率。例如,對於平穩發展之發聲語音,參數更新率可能 明顯地小於短暫型態語音,其參數輪廓快速地改變。此 外,就品質之觀點,使用更多位元於知覺上重要之區段(例 如,高能量區段)及減少位元於知覺上不重要之區域(例 如,靜音)。 為發展利用如圖2b-2d所示之參數平穩性質於語音穩 定區域,有效量化方法通常被使用。該方法包括例如預測 及差分(differential)編碼。然而,因為對於錯誤頻道效率 之須求,使用參數統計分佈(statistical distribution)之 不同編碼方法之效率尚未完全利用於目前語音編碼。 在一典型之參數語音編碼器中,語音參數是估計於間 隔規律之語音信號。該間隔之長度通常等於所使用編碼器 框之長度。雖然某些參數(例如音調)可能較其他參數更常 被估計,一參數之估計速率通常是定值。然而,使用可變 更新速率也是可能的,但是實行之額外複雜性及困難將使 得此處理方式不合實際(參見例如P. Prandoni M.Vetterli, ’’R/D理想線性預測’’IEEE語音及聲訊處理彙刊,第8冊, 編號 6,2000,頁碼 646-655) 〇 參數傳送率通常等於估計速率。在被估計參數之量化 過程,最常用之處理方式是對於每個參數有一各別之量 化,並使用同一量化器於參數之所有估計值。模式指定 (Mode-specific)量化器也已被使用,但這種技術仍然相當 少用於實際應用。在模式指定量化器中,模式之選擇通常 基於發聲資訊。 10 1281657 為達到語音信號之編碼及解碼於低位元率,
Aguilar(美國專利號碼5,787,387)將連續輸入語音分成有 聲及無聲預定長度之時間區段。編碼器使用線性預測編碼 (LPC)模型於無聲語音區段,及使用諧調頻率分解於有聲 區段。若使用有聲語音區段之離散傅立葉轉換(discrete Fourier transform),祇有諸調頻率之大小被決定。解碼器 使用該大小之傳送諧波以合成有聲語音區段及由前置語 音區段之信號估計每個諧波之相位。無聲語音區段之合成 係使用得自LPC係數多項式極點用編碼冊項目之LPC係 數。為了改進的輸出語音品質,介於有聲與無聲區段之邊 界條件被建立以確保振幅及相位連續性。在另一不同之處 理方式中,Yokoyama(美國專利申請文件號碼2003/ 0105624 A1)使用編碼率選擇器以依據輸入語音之強度選 擇適當之語音編碼率。語音編碼率選擇器有一個用於計算 預定時間單元内之輸入語音能量之短期能量計算單元,及 一個用於估計加諸在輸入語音之環境噪音能量之環境噪 音能量估計單元。基於環境噪音能量估計之結果,計算出 能量閾值(threshold)組。該閾值組然後與由短期能量計算 單元計算出之能量相比較,以從多數的語音編碼率中選擇 一個適當速率。 先前技術之缺點 -固定框大小及固定參數傳送率之使用無法提供一 理想之解決方式,因為一設定之參數值可能維持一相當長 時期之恆定於某些時刻,但是同樣參數值可能變動的非常 1281657 快於其他時刻。 被編碼4號之特性(例如發聲資訊)非充分地利用 於量化過程。 -在參數語音編碼中,從壓縮效率之觀點,—固定參 數更新率抵有極少適n當於語音之穩定(有聲)部分, 即使-個非常低之更新率也可能足夠。然而,當於噪音特 質(無聲)區段,-高度更新率是典型的要求。 -對於良好感知正確所須之量化準確是可變動的且 依賴被編碼錢之雜。因此,使用具有—較位元配置 之单一量化器之先前技術通常產生感知上無法滿足之結 果於必須非常正確編碼之語音部分,或浪費位元於可更為 粗略編碼之部分。 【發明内容】 姓"明之主要目標在於為儲存應用改進語音編碼結 構内之編碼效率。為達該目標,語音信龍料成參數之 編碼步驟依據音頻錢之特徵而調整。 2此:根據本發明之第一個特徵,乃提供—具音頻特 ^曰頻信號編碼方法’該方法包含之步驟有:基於音頻 信號之音頻特徵將音頻信號分段成多個區段用 之編碼設定將該等區段編碼。 便用不门 碼步=本發明,該分段㈣是實行同步、或之前於該編 12 1281657 編應3本發明之第二特徵,提供—與音頻編碼器關連之 接徂:,該音頻編碼器將具音頻特徵之音頻信號編碼以 =供夕個表示音頻信號之參數。該編碼裝置包括:一輸入 以接收表示參數之音頻資料;以及—個基於音頻 =特徵區隔參數之調整模組,以提供參數之調整表示 端,括—财效地連接至儲存媒體之輸出 存播辦t 録μ之編碼參數之料以儲存至儀 k供表不調整表示法之編碼參數之信號以經由 通信頻道傳送。 根據本發明之第四個特徵,提供—包括在電 體之電腦軟體產品,其與音頻編碼裝置同時使用,該 編碼裝置將音頻信號編碼成具音頻特徵曰 ==數。該電腦㈣產品包括:一決定音頻= 鋥二=碼,以及-基於該音頻信號特徵以調整參數之 耘式碼,其用以提供參數之調整表示法。 根據本發明之第五個特徵,提供一電子裝置,苴勺 =-:碼器,其用以產生具音頻特徵之合成音頻信號已 八中之日頻信號是於-編碼步驟中被編碼成資料 個參數,且該編碼步驟是基於音頻信號之夕 以提供參數之調整表示法(ad細edreprese咖i〇n)作= -輸入端,其接收表示調整表示法參數之音頻資料, 供^頻資料給解碼H,使得解碼器基於調整表示法立 頻信號。 曰 14 1281657 該電子裝置可有效地連接至電子媒體,以接收來自電 子媒體之音頻資料,或有效地連接至通信頻道,以接收經 由通信頻道傳送之音頻資料。 胃電子裝置可以是-個行動終端機,或終端機用模 組。 、 根據本發明之第六個特徵,提供一通信網路,其包括: 多個基地站;及多個配合基地站通信之行動站,其中至少 有一行動站包括··一解碼器,其用以產生具音頻特徵之合 ^音頻信!虎,其中之音頻信號是於—編碼步驟中被編碼成 貝料率之多個參數,且該編碼步驟是基於音頻信號之音頻 特徵作調整以提供參數之調整表示法(adjusted 、 representation);以及一輸入端,其接收來自至少基地站 其中之一,表示調整表示法參數之音頻資料,以提供音頻 資料給解碼器,使得解碼器基於調整表示法產生音頻俨、 號。 、口 本發明於詳閱與圖3a至圖丨丨相關之說明後將更趨明 晰。 【實施方式】 二為減少傳送位元率而不降低語音品質,本發明使用語 號分段方法以加強參數語音編碼器之編碼效率。該分 &疋基於語音之參數表示。區段之選擇致使語音參數之區 段内相似性很高。每個區段被歸類到基於語音信號特徵之 區段類型,一。較為可取之區段歸類有··靜止(非活動), 有耳無浑,及變調(混合式)(transition(mixed))。如此, 15 1281657 每個區段可藉基於相應區段類型之編碼方式 在典型之參數語音編碼器中,於 、…。 =線性預測系數,語音能量(增益),音調及數 為揭不本發明之語音信號分段方法,假設發聲資訊、: 聲Ϊ7(完全有聲)之整數值,且參數是以二 %抽取n該技料適用於其他發聲資訊類 或不同參數抽取率。 基於與語音能量及發聲相關之參數,可施行一簡單之 分段演异法,例如,考慮以下要點: -靜止,非活動區段可藉為能量值設定之閾值偵測 出。在^息預先錄音應用中,音頻可調整以具有一個恆定 輸入程度,以及非常低之背景噪音程度。 -抽取時刻具有相同發聲值之連續參數可設定屬於 同一單獨區段。 -任何介於具相同發聲值之兩個較長區段之間的 10-ms區段可視為奇異值(outiier)而剔除,致使三個區段 可合併為一個較長之區段。奇異值是非典型之資料點,其 沒有顯現如同其他資料之示性分布。 -介入完全有聲與完全無聲區段之短區段(l〇-20ms) 可合併至鄰近區段其中之一,若其發聲值為丨或2(合併至 無聲區段),或者為5或6(合併至有聲區段)。 -具發聲值範圍從1至6之連續區段可合併成一個區 段。這些區段之類型可設定為”變調"(transition)。 -剩餘單獨ΙΟ-ms區段可與鄰近最相似發聲值之區 16 1281657 段合併。 此外,在分段中使用其他可供給之參數是可能的。例 如,若某些參數(例如音調)於長的有聲區段中存有激烈之 改變,則區段可分為兩個部分,致使參數維持緩和發展於 兩個部分中。 在不同區段類型之參數編碼方法可設計符合知覺的 需求。例如,於有聲區段,高度精確是須要的,但更新率 可以相當低。於無聲區段,低精確率通常是足夠的,但更 新率應有足夠高度。 刀I又之貫例顯示於圖3a-3d。圖3a表示語音信號之時 間函數。相應之能量參數變化圖示於圖3b,以及發聲資 Λ圖示於圖3c。區段類型圖示於圖3d。該等圖式中之虛 線表示區段邊界。在此例中,分段是基於發聲及增益參 數。增益首先用於決定是否框架是活動的(或靜止的)。然 後务聲參數用於將活動語音區分為無聲、變調或有聲區 段。若有須要時,此生硬的分段可稍後以敏銳過濾及/或 使用其他參數詳加區分。如此,分段可完成基於實際參數 語音編碼器參數(非量化或量化的)。分段也可完成基於原 始語音信號,但如此則必須要發展一個全新之分段區塊。 圖4是一將使用分段資訊之語音參數U2量化之語音 編碼系統·。壓縮模組20或可使用現存語音編碼器之量化 參數,亦或使用直接來自於參數抽取單元12之非量化參 數。此外,一預處理階段(未圖示於此)可加諸於編碼器以 產生具指定能量等級及/或頻率特徵之語音信號。輸入語 17 1281657 音信號110可產生於真人講述者或高品質tts演算法。輪 入語音編碼舉例來說’可完成於電腦離線(。制㈣時。」 果位元率12G可提絲位於行動終端機巾之解碼器40、,° 2經由-通信頻道或儲存媒介3Q。如稍後討論的 縮模、:20内之軟體程式22可使用於減少被量化器編碼成 ^元流之參數數目,使得解碼器4Q基於接收位元流之來 數’產生一合成語音信號。 ^ 訊), 基於參數(基本上聲調,發聲 壓縮模組20依以下舉例步辱 1 ·輸入語音信號之分段。 •能量,及頻譜振幅 實施: 資 2·定義不同區段及參數之理想參數更新率。 3 ·消除來自原始參數之傳送參數。 4·推導參數之有效量化。 通常,語音信號之分段提供以下好處: -分段(以適當區段大小)能促使極高量化效率於非 常低之平均位元率^例如,兩個字之間的停頓能藉量化區 段長度及指示其相應區段是屬"靜止"類型,而僅以少數之 位7C*編碼。 -分段及固有預見(inherent l〇〇k_ahead)使得使用調 適參數傳送率成為可能。@此,傳送參數於知覺上可接受 之變化率是可能的。 -編碼處理可有效地適應輸入資料之改變,如不同編 碼方法可用於不同類型之區段。例如,高效預測可使用於 有聲區段。 18 1281657 -刪除區段中之單獨奇異值可改進能達到之量化效 率,及可改進語音品質。 -分段程序是簡單及計算上之有效率的。 -分段方法可實行為增加之區塊,其可用於既有之語 音編碼器中。* 語音信號分段方法可與調適向下取樣(adaptive downsampling)及量化法共同使用。位元率及參數更新率 兩者在參數語音編碼器可適當地最佳化。最佳化 (Optimization),舉例說,是實行局部地於一區段於一時 刻,且區段長度可為定值或變數。在編碼器方面,典型之 編碼器用於讀取語音信號區段及估計語音參數於規律之 間隔(框架)。包括區段及具量化之調適向下取樣可採兩個 階段實行。首先,連續框架流被分成連續之區段。該等區 段應盡可能的長,而仍維持高度内部區段相似性(例如所 有在一區段内之框架皆是有聲的)。第二,每個區段使用 調適向下取樣來量化,此乃意指每個參數皆可發現促使高 品質之最低可能的位元率及更新率(高取樣因子(high decimation factor)) 〇 因此,在第一階段,一壓縮模組(見圖4)聚集所有區 段内之k個參數值,且由連續參數值形成一個”區段參數 信號’’。然後一量化模式由區段内之發聲值選出,如圖5 所示。基於該量化模式,編碼參數表示之選擇目標精確度 可適當地定義。該被選擇之精確程序也決定了單一參數值 量化所使用之位元數目。在第二階段,剛好符合精確度要 19 1281657 求之向下取樣率及量化被選擇。最後,軟體程式由原始k 個參數值中決定減少i個參數值,使得祇有k參數值中之 i個須經量化器編碼成位元流。 於解碼器中,如圖6所示,使用内插法 (interpolation),更新率被轉換回原始更新率。該過程可對 所有被傳送至解碼器之參數重複。 語音參數之調適向下取樣及量化方法於圖7之流程 500中表示的更詳盡。如流程圖所示,語音信號區段於步 驟510讀入。規律間隔之語音參數被估計於步驟512。步 驟510及5 12可使用典型語音編碼器實行。在步驟513, 一 f區段參數信號”由連續參數值形成(所有在區段内之k 參數值聚集)。在步驟514,使用區段内之發聲值選擇一量 化模式。若參數表示不包括發聲資訊,一額外之發聲分類 器可用於獲得該發聲值。應注意的是,為得最佳效果,區 段應被選擇使得發聲於整個區段維持幾乎不變。在步驟 516,相應於量化模式之目標精確度(及量化器)被選擇\ 在步驟518,—修改信號形成於長度k之區段參數信號。 該修改信號有相同之長度且明知知覺上滿意方式°顯°示 原始信號。在步驟520,最佳化過程是開始於卜丨。 驟522,參數信號由長U至長度i向下取樣。在步驟 使用516步驟選擇之量化器將i個參數值編碼 526,具i個量化參數值之信號向上取樣至原始長度^驟 步驟528,測量介於原始參數值與步驟所得 $ 樣量化值之間的變形。此外,測景人 ° 匕外W里介於向上取樣量化值與 20 1281657 信號(見步驟518)之間的變形。在步驟530,決 個Li:測量指示達到於516步驟所定義之精碟度。兩 到:i即區段内所須更新之參數數目。一位元; 匕了 ^值及步驟524選擇之量化器指標。(參數匕 #疋例如,被包括在分開傳送至解碼器之區段資訊中)。 右目知精確度沒有達到,設定i=i+1於步驟532。若i值 沒有超過其於步驟534所決定之最大值,則程序持續於步 驟522。否則,使用所知之知覺上足夠之固定更新率;包 括該資訊於位元流中;量化該值於固定速率;且輸出量化 器指標至位元流。 ^在解碼器方面,向下取樣率首先由位元流取出。然 後,相應量化器指標數由位元流中讀取且得到一組丨量化 值。最後,參數更新率以内插法向上取樣回至原始速率。 應注意的是,修改信號選擇(於步驟5丨8)及目標精確 度序估(於步驟530)被原始速率及知覺上足夠率所影響。 讓我們假設對參數之估計率被編碼於l〇〇Hz且知覺上足 夠更新率於50Hz(此假設對於,例如對於編碼實行相關於 預錄聲訊目錄之儲存及相關應用,是有效的)。該修改信 號可使用具0.5 ;r截止頻率(cut-off frequency)之低通行過 濾而構成。在此,截止頻率是使用角度頻率符號表示,其 中7Γ對應奈奎斯特頻率(Nyquist frequency)(即取樣頻道之 一半)且此對應去鑛齒邊過渡(anti-alias filtering)。據此, 剛好超過最大值(於步驟530)之i之最低值是k/2,且固定 21 I28l657 向下取樣率是2 : 1。此向下取樣之版本可得自於使用來 自步驟5 1 8之過濾信號之每第二個值。 、實行於步驟528之變形測量可被自由地選擇以適應 破編碼參數之所須。此外,該變形測量可包括一個以上之 結果值。例如,有可能計算平均加權平方誤差及最大平均 加權平方誤差,以及設定對於該二值之,,精確值,,極限。調 適向下取樣及5化法,根據本發明實施例,可揭示如下·· 使用純量能量參數之測量是以dB(分貝)為單位之絕 對誤差,且解碼能量是允許對"實際值,,偏差2犯。此目標 精確度之使用與量化模式無關。由於線性預測系數,頻譜 變形是採用加權平方誤差測量所得近似值。區段内之最^ 及平均誤差均被測量。選擇精確度範圍致使其大致相應於 頻譜變形(SD)限度如表I。 奉I使用於線性預測糸數編碼之精禮度範圍
無聲 混合 有聲 最大SD 4.3dB 4.2dB — _ 4.1dB 最大平均SD 2.1dB 1.6dB 1.2dB 調適向下取樣之結果及能量參數之量化表示於圖8a 至8d。圖8a表示於一秒鐘之活動語音中,語音編碼所須 調適位兀率之演變。圖8b表示調適向下取樣率,亦即,匕 值除以選擇之i值。圖8c表示以dB為單位之相應絕對編 碼誤差,以及圖8d表示相應之模式選擇。少數大於2dB(精 讀度極限)之誤差是由固定之向下取樣所造成。應注咅的胃 是,圖8a至8d祇表示了部分的测試取樣。對於整個測試 22 1281657 取樣,能量參數之平均位元率是小於150bps。在不使用本 發明之情況下,位元率將相當的高。在測試取樣内之增益 值動態範圍是從大約-40dB至大約70dB。據此,可得到由 直接計算之結論是於活動語音時,以傳統純量量化方式維 持絕對誤差小於2dB所須之位元率將為500 bps。 總而言之,語音信號可視為包括了有聲語音、無聲語 音、變調(混合有聲語音)及停頓(靜止)。這四個語音類型有 不同之物理及知覺特性。從品質之觀點,使用較多位元於 知覺上顯注之區段(例如,高能量區段)及減少位元數於知 覺上不重要之區域(例如,靜止)是有道理的。此外,參數 更新率可適切地調適根據輸入語音特徵。 為了實行本發明,編碼器結構包括,例如,一或更多 之以下元件:預處理(preprocessing)、參數追縱(parameter tracking)、分段、調適向下取樣及量化。預處理及參數追 蹤是典型地用於強化語音編碼效率。 預處理 既然原始語音不須絲毫不差之重建,輸入語音信號可 依所要之方式修改以增加編碼效率。實際上,這表示預處 理階段是加入編碼器以產生具特定能量階段及/或頻率特 徵之語音信號。此外,可能之背景雜訊可被減弱。 參數追蹤 由於選擇參數追蹤之小心處理,分段效率可顯著改 進。此主要之目標在於移除可能之參數奇異值,其可能影 響分段決定。此包括例如找尋音調偵測錯誤或具低能量之 23 1281657 非常短無聲區段,其可被省略而不降低語音之品質。 分段 分段可基於語音之參數表示或語音信號本身。選擇區 段致使語音參數之區段内部相似性很高。此外,每個區段 被歸類為基於語音信號特質之語音類型之一(語音類型是 為靜止、有聲、無聲及變調)。此分段技術之結果是,每個 區段能使用相應區段類型之編碼方法而有效地編碼。該編 碼方法之實例表示於表II及表III。表II顯示典型語音參 數所須之量化精確度,而知覺上充足更新率列於表III。 表II 一般參數於不同區段所須之量化精準度 有聲 混合 無聲 靜止 頻譜 南 高 低 — 增益 向 高 低 低/— 音調 一 — 發聲 — 低 — — 表III 一般參數於不同區段之知覺上充足更新率 有聲 混合 無聲 靜止 頻譜 低 高 高 — 增益 低 高 低/— 音調 低 南 — — 發聲 — 高 — — 為進一步改進編碼效率,初始區段可藉使用倒退及前 進追蹤。例如,介於兩個有聲區段之間的非常短無聲區段 可視為奇異值於被消除(三個區段可合併成一個長的區 24 1281657 段)。此追縱方式說明於圖9a,由其可知單一發聲奇異值 尖峰被移除。結果,平均區段長度增加,其循序改善量化 效率。 魏適向下取檨及詈化 調適向下取樣及量化可一次執行一個語音區段,且每 個區段之處理過程,舉例來說,須經兩個階段。第一階段, 編碼參數表示之目標精確度是基於相應語音信號之特徵 而適切地定義。選擇精確程度也決定了使用於單一參數值 量化所使用之位元數。然後,選擇剛好符合精確度要求之 向下取樣率。在解碼器方面,使用内插法將更新率轉換回 原始更新率。該過程可重覆於所有傳送至解碼器之參數。 使用此技術’平均位元率可維持非常小,即使量化來數執 跡非常近似原始音軌。此說明於圖9b量化音調執跡十分 接近原始執跡,縱使位元率由7〇〇bps降至丨〇〇bps。 當與固有位元配置及參數更新率之傳統方式相比較 時,調適向下取樣及量化方法明顯地增 =達=因為參數更新率及位元率兩者皆於每 二早獨每個參數做局部地最佳化。當於語音之敏 =二新率及/或“率可暫一 再者,本發明之設備包括·· -強化編碼效率,當相較於先前技術。 確度1切調整位元配置以符合感知正確表示所須之精 25 1281657 -適切調整參數更新率以持續於位元率與結 表示之精確度之間尋找良好平衡。 > -可單獨對每個參數做更新率及位元率之優化。 -本發明可實行作使用於現存語音編碼器之額外區 塊。 語音參數之調適向下取樣及量化,依據本發明,可以 許多不同方法實行。其中之-種方法已揭示於圖5至圖 7。然而,向上及向下取樣能以多種方法執行。此外,目 前施行所採用的是離散正弦轉換(discrete c〇sine transform (DCT))及倒轉DCT,但仍有許多其他替代方 同樣地,藉使用二元搜尋取代線性搜尋以達成快速搜 尋是可能的。該方法提供一介於效率及複雜性之間的良好 平衡。此外,其有另一優點是本發明可實行作額外區塊以 補充現存之參數語音編碼。另外,編碼器之參數估計率可 為變數或固定值,其與使用在解碼器内的不相同。該方法 可使用於當參數更新率於解碼器不同於參數更新率於編 碼器時。 另一選擇方式,調適向下取樣及量化可執行於當調適 更新率被選擇於參數估計時。理論上,該方法能產生最好 之效果,但關連之複雜性是相當累贅的。尚有另一種方 式,向下取樣率之定義不須具備量化器。該方法之複雜性 最低,但效率不及其他之方法。 如上揭示的,調適向下取樣及量化法明顯地增加編碼 效率,相較於彳專統具固定位元配置及參數更新率之方法。 26 1281657 由於本發明,參數更新率及位元率兩者對於短的語音區 段,各別每個參數可局部地優化。因此,總是能盡量維持 低的更新率及位元率,而仍保持適當的感知品質。當於語 音敏感部分,一足夠較高之更新率及/或位元率可暫時使 用’而不顯著增加平均位元率。 應注意的是,在背景章節所述之參數語音編碼模型是 正弦曲線模型,但存在著其他參數語音模型。本發明可應 用於正弦曲線模型及其他參數語音模型。 依據本發明,一參數壓縮及分段之實例是與美國專利 申請Docket號碼944-003.191有關連,其標題是”語音編 碼中音調輪廓之方法與系統”。更明確地說,美國專利申 請Docket號碼944-003 · 191揭示分段式音調輪廓量化方法 (piecewise pitch contour qUantization meth〇d)。一 分段式 音調輪廓量化方法之實例顯示於圖1〇。分段式音調輪廓 可為線性或非線性輪廓區段。對分段式音調輪廓而言,祇 有輪廓上有突出改變之點傳送至解碼器。由此,音調參數 所須之更新率顯著地降低。原則上,分段式線性輪廓之構 成方式是,當維持’’實際音調輪廓,,之偏差小於一指定之範 圍’導數變換可最小化。 一構成分段式線性音調輪廓之簡單但有效之優化技 術可藉一次處理一線性區段而獲得。此簡述於下: 對於每個線性區段,最長線(其維持足夠低之實際輪 廓偏差)之搜尋不須知悉使用線性區段範圍外之輪廓。在 優化技術中,有兩個情況應予考慮:第一線性區段及其他 27 1281657 之線性區段。 第:線性區段之情況發生於編碼過程開始的時候。此 傳、音是為非活動或無聲語音而傳送,則於Μ t 段應歸屬此類別。上述兩種情形,線 之兩個端點皆可被優化。其餘之情關歸屬第二類型,里 中線之起點是已固定的,祇有終點可被優化。 八 第一線性區段之情況下,處理過程是由選擇首先兩個 音調值作為目前為止所尋獲最佳端點。然後,開始反覆斟 酌那個線之端點是接近第—與第三音調值。線之候選起 ^點是所有足夠接近第一個原始音調值之量化音調值,使 得要求精確度之標準可被滿足。同樣地,線之候選終點是 所有足夠接近第三個原始音調值之量化音調值。當所有之 候選點已尋獲,所有可能之起始點與終點之組合將被測 忒·線性表不之精確度被測量於每個原始語音位置,且線 可被接文為分段式線性輪廓之一部分,若精確度之標準可 被滿足於所有這些位置。此外,若目前線與原始音調輪廓 之偏差小於與其他接受於反覆步驟之任何線之偏差,則目 前線被視為截至目前為止之最佳選擇。若至少有一測試線 被接受’反覆程序將持續於為區段再取得一個音調值之 後。若無一替代可被接受,則優化程序終止,且優化過程 中尋獲之最佳端點將選作為分段式線性音調輪廓之點。 在其他線性區段之情況下,祇有終點位置可被優化。 該過程啟始於選擇第一音調值於固定起始點後作為目前 為止最佳終點。然後,開始反覆程序以再獲取一個列入考 28 1281657 慮之音調值。線之候選終點是足夠接近該位置原始音調值 之量化音調值,使得要求精確度之標準可被滿足。在該等 候選點尋獲後,所有皆須測試作為終點。線性表示之精確 度被測量於每個原始語音位置,且候選線可被接受為分段 式線性輪廓之一部分,若精確度之標準可被滿足於所有這 二位置此外,若與原始音調輪廓之偏差小於與其他接^ 於反覆步驟之任何線之偏差,則候選終點被視為截至目前 為止之最佳選擇終點。若至少有一測試線被接受,反覆程 序將持續於為區段再取得一個音調值之後。若無一替代可 被接受,則優化程序終止,且優化過程中尋獲之最佳終點 將選作為分段式線性音調輪廓之點。 以上詳述之兩的個情況中,反覆程序可基於兩個理由 而提早結束。第一,程序結束,若無更多後續值可供使用。 此可發生於若使用完全預見Gookahead),若語音編碼已結 束,或若語音傳送被暫停於非活動或無聲語音中。第二, 限制單一線性部分之最大長度以使點位置編碼更有效率 是可能的。尋獲_新的分段式線性音調輪廓點,該點可編 碼成位元流。有兩個值必須給予每一個點弋該點之音調 值,以及介於輪廓新點與之前點之時間距離。當然,對於 輪廓之第一個點,時間距離不須被編碼。音調值可使用純 量量化器之傳統式編碼。 圖Π·疋通信網路之示意圖,根據本發明,其可使用 於預錄聲訊目錄及相似之應用。如圖所示,網路包括多個 基地站(base stations(BS)),其連接至—轉換次站(nss), 29 1281657 而可能再連接到其他之網路。網路尚包括多個能與基地站 通信之行動站(mobile stations(MS))。行動站可以是一個行 動終端機,其通常稱為完全終端機。行動站也可是一終端 機用模組,不具顯示、鍵盤,電池、覆蓋等等。行動站可 能有一解碼器40用以接收來自壓縮模組20(見圖4)之位 元流120。壓縮模組20可位於基地站,轉換次站或其他 網路中。 雖然本發明已揭示於一相關之有效實施例中,專家們 能瞭解前述及在形式及細節上之各種其他變更,刪減及差 別可以完成而不脫離本發明之範圍。 30 1281657 【圖式簡單說明】 圖1表示典型語音信號之數位傳送及儲存之方塊 圖。 圖2a表示語音信號波形之時間圖。 圖2b表示與圖2a語音信號關連之音調之時間圖。 圖2c表示與圖2a語音信號關連之發聲資訊之時間 圖。 圖2d表示與圖2a語音信號關連之能量之時間圖。 圖3a依據本發明,表示語音信號分段(segmentation) 方法之語音信號之時間圖。 圖3b表示與圖3a語音信號關連之語音信號能量之 時間圖。 圖3c表示與圖3a語音信號關連之語音信號發聲資 訊之時間圖。 圖3d依據本發明,表示語音信號區段之時間圖。 圖4 依據本發明,表示語音編碼系統之方塊圖。 圖5 依據本發明,表示語音編碼器之功能特徵之方 塊圖。 圖6 依據本發明,表示語音解碼器之功能特徵之方 塊圖。 圖7 依據本發明,表示調適向下取樣(adaptive downsampling)及量化計算法之流程圖。 圖8a依據本發明,表示增益參數值(gain parameter) 之調適位元率之時間圖,作為來自調適向下取樣之結果。 31 1281657 圖8b表示調適向下取樣率之時間圖。 圖8c表示關於真實增益值之絕對誤差之時間圖。 圖8d表示量化模式之時間圖。 圖9a表不為改進區段執行之參數追蹤結果之時間 圖9b依據本發明實施例,表示 原始執跡之時間圖。 量化音調軌跡相較於 圖10依據本發明,區段方法之實例。 圖11依據本發明,表示能傳送壓縮 機之通信網路之示意圖。【主要元件符號說明】 資料至行動終端 U 編碼器 20 壓縮琴 22 軟體 24 量化器30 通信頻道或儲存媒體 40110120 510 512 513 516 518 解碼器 50 行動站 輸入信號 112 參數 位元流 140 合成信號 讀入語音信號區段 估計語音參數及形成參數信號 分段 514選擇對應目標精確度 構成修改信號’其代表在知 之k值 選擇量化模式 覺上滿足之參數 520 設定i=l 522 從k至i 向下取樣 32 1281657 524 量化參數x之i值 526 從i至k向上取樣 528 變形測量(測量原始值及方塊5 18所得值兩者 相關之變形) 530 精確度是否足夠? 532 i=i+l i<極限? 534

Claims (1)

1281657 $ 93126447號專利申請案 補充、修正後無劃線之說明^修正頁一式三份 十、申請專利範圍: 步驟: 種具音頻特徵之音頻信號之編竭方, 法,包括下述 多個區 段頻信號基於音頻信號之音頻特徵分段成 以不同編碼設定將該等區段編碼。 2·如申請專利範圍第丨項之方法,i 括音頻信號之料區段内之發聲特徵。、μ日頻特徵包 3·如申請專利範圍第1項之方法,盆 括音頻信號之該等區段内之能量特徵。w日頻特徵包 4·如申請專利範圍第2項之方法,i★ 括音頻信號之該等區段内之音調特徵。、〜日頻特徵包 5牛如巾請專利範圍帛丨項之方法,其中 編碼步驟同時實行。 』干又疋興該 6·如申請專利範圍第1項之方法 編碼步驟之後實行。 ,、中刀段是於該 7·如申請專利範圍第2項之方 甘由夕乂 定給該等區段之音頻信號之發聲特徵::該 34 1281657 126447就專利申諳牵 補充、修正後益查丨丨綠‘月^ 定之發聲值實行 1无《劍線之說明書修正頁一式 8.如申請專利範圍帛7項 括一個指定給有聲語音信號之值巾多個發聲值包 音信號之值。 ’及另一個指定給無聲語 9.如申請專利範圍第7項 括一個介於有聲及I聲 其巾多個發聲值包 …、耸彳虎之間的轉變階段值。 W·如申請專利範圍第7項之 包括一個指定仏吃立7上 万法其中多個發聲值還 私疋給語音信號之非活動期間之值。 選擇:::Γ利範圍第1項之方法’尚包括為編碼過程 U里化Μ之步驟,其中該分段 : 模式而實行。 7 土孓k擇的篁化 1^·如中請專利範圍第^之方法,其中該分段 土;曰頻信號重建之選擇目標精確度而實行。 ,疋 、:戈如申請專利範圍第4項之方法,其中該分段步驟Q 為至少某些該區段提供線性音調表示而實行。 尺 、14·如申請專利範圍第丨項之方法,其中音頻信號 碼成音頻信號資料,該方法還包括步騍: 、’、 35 1281657 $ 93126447號專利申請案 補充'修正後無劃線之說明書修正頁一式三份 基於音頻化旒資料形成一具有信號資料之第一個號碼 之參數信號; 向下取樣參數化號至信號資料之第二個號碼以提供進 一步參數信號,其中第二個號碼是小於第_個號碼;以及 向上取樣進一步參數信號至信號資料之第三個號碼於 碼過%,其中第三個號碼是小於第二個號碼。 等於Γ7Γ專利範圍第14項之方法,其中第三個號碼 寺於第一個號碼。 16·如申請專利範圍第 括量化參數。 17·如申請專利範圍第 括非量化參數。 14項之方法,其中信號資料包 14項之方法,*中信號資料包 =·種用以產生具音頻特徵之音頻信號之 曰頻信號是於一編碼步驟中被 馬态,… 數’且該編碼步驟是基於音頻传之〜貝料率之多個參 供參數之調整表示法,該解=音頻特徵作調整以提 •欠一輸入端,其用以接收表示調整表 一貝料;以及 不法之參數之音頻 一個回應音頻資料之模組,复 信說之特徵產生音頻㈣。μ H表示法及音頻 36 1281657 第93126447號專利申請案 補充、修正後無劃線之說明‘修正頁一式三份 19·如申請專利範圍 是記錄於電子媒體,以 電子媒體以接收音頻資 及項之解碼器,其中音頻資料 :、解碼器輪入有效地被連接至 科0 20.如申請專利範圍 是透過通信頻道傳送, 至通信頻道以接收音頻 第18項之解碼器,其中音頻資料 、及其中解碼器輸入有效地被連接 資料。
Z1.— m用以屋生具音韻胜 番.^ ^ g领特徵之音頻信號之編碼: 置,此編碼裝置包括: ^ 一輸入端’其用以接收代表特徵之音頻資料;以及 數之模組基於音頻信號特徵用於調整參數以㈣ 要又 < 調登表示法。 22·如申請專利範圍第21項之編碼裝置,還包括一回 應調整表示法之量化模組,其將參數以調整表系法編碼。 ❿ 如申請專利範圍第21項之編竭裝置’還包括一有 编满錯存媒體之輸出端,其用以將表示調整表示法之 、,扁馬參數之資料儲存至儲存媒體。 ★、24.如申請專利範圍第21項之編碼裳置,還包括-有 效連接至通信頻道之輸出端,其用以將表示調整表示法之 37 第93126447號專利申过 補充、修正後無劃線之^案書修正頁一式三份 、·爲碼參數之^號提供給傳送用通信頻道。 •種電腦可讀取的記憶媒體,供盘 用,該音頻編碼裝置將音頻信號編碼成:音頻特f:連 一、二唬之夕個參數,該記憶媒體附載有: 二定該音頻信號之特徵所用的程式碼;及 調整參數Ϊ二音=號之特徵調整該等參數以提供-種已 致之表不法所用的程式碼。 中被編碼成資料率之;個=之日頻信號是於-編碼步驟 信號之音頻特徵作調整:二:該編碼步驟是基於音頻 乃正以耠供參數之調整表示法,·以及一 :頻資料二Μ收ί不調整表示法參數之音頻資料,以提供 芦號/ ^碼裔’使得解碼器基於調整表示法產生音頻 料被纪釺專利乾圍第%項之電子裝置,其中音頻資 於電子媒體,且其中 地連 媒體以接收音頻資料。 28.如申請專利範圚 η 祀固第26項之電子裝置,其中音頻資 料疋經由通信頻道值$ 貝、傳运,且其中輪入端被有效地連接至通 38 1281657 声93126447號專利申請案 補充、修正後無劃線之說明書修正頁一式三份 信頻道以接收音頻資料。 29·如申請專利範圍第26項之電子裝置,包括一行 終端機。 丁勒 3〇·—種通信網路,其包括:多個基地站;及多個配合 基地站通信之行動站,其中至少有一行動站包括··一解^ 器,其用以產生具音頻特徵之合成音頻信號,其中之音頻 信號是於一編碼步驟中被編碼成資料率之多個參數,且該 編碼步驟是基於音頻信號之音頻特徵作調整以提供參數之 調整表示法;以及一輸入端,其接收來自至少基地站其中 之一,表示調整表示法參數之音頻資料,以提供音頻資料 給解碼器,使得解碼器基於調整表示法產生音頻信號。 31.—種用於重建音頻信號之解碼器,其中音頻信號被 編碼以提供表示音頻信號之參數,該參數包括含有表示音 頻區#又於時間上之多個音調值之音調輪廓資料,且該音頻 區段於時間上之音調輪廓資料可藉在音頻區段内之多個次 區段趨近,該每個次區段由第一端點與第二端點所界定; 該解碼器包括: 一輸入端,其用以接收表示界定次區段之端點之音頻 資料;以及 一重建模組,其基於接收到的音頻資料重建音頻區段。 39
7 5 ό
OLO 寸醒
TW093126447A 2003-10-23 2004-09-02 Method and system for speech coding TWI281657B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/692,290 US20050091041A1 (en) 2003-10-23 2003-10-23 Method and system for speech coding

Publications (2)

Publication Number Publication Date
TW200515372A TW200515372A (en) 2005-05-01
TWI281657B true TWI281657B (en) 2007-05-21

Family

ID=34522084

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093126447A TWI281657B (en) 2003-10-23 2004-09-02 Method and system for speech coding

Country Status (4)

Country Link
US (1) US20050091041A1 (zh)
EP (1) EP1676262A4 (zh)
TW (1) TWI281657B (zh)
WO (1) WO2005041169A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100634506B1 (ko) * 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
US20060235685A1 (en) * 2005-04-15 2006-10-19 Nokia Corporation Framework for voice conversion
US20080161057A1 (en) * 2005-04-15 2008-07-03 Nokia Corporation Voice conversion in ring tones and other features for a communication device
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
DE602006013359D1 (de) * 2006-09-13 2010-05-12 Ericsson Telefon Ab L M Ender und empfänger
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
US8306134B2 (en) * 2009-07-17 2012-11-06 Anritsu Company Variable gain control for high speed receivers
MY164797A (en) 2011-02-14 2018-01-30 Fraunhofer Ges Zur Foederung Der Angewandten Forschung E V Apparatus and method for processing a decoded audio signal in a spectral domain
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
CN103620672B (zh) 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
EP2676266B1 (en) 2011-02-14 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
PL3576087T3 (pl) * 2013-02-05 2021-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Ukrywanie klatki utraconej sygnału audio
KR101790641B1 (ko) 2013-08-28 2017-10-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
US11024321B2 (en) * 2018-11-30 2021-06-01 Google Llc Speech coding using auto-regressive generative neural networks
CN113113040B (zh) * 2021-03-22 2023-05-09 北京小米移动软件有限公司 音频处理方法及装置、终端及存储介质

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1203906A (en) * 1982-10-21 1986-04-29 Tetsu Taguchi Variable frame length vocoder
US5042069A (en) * 1989-04-18 1991-08-20 Pacific Communications Sciences, Inc. Methods and apparatus for reconstructing non-quantized adaptively transformed voice signals
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
TW271524B (zh) * 1994-08-05 1996-03-01 Qualcomm Inc
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5673361A (en) * 1995-11-13 1997-09-30 Advanced Micro Devices, Inc. System and method for performing predictive scaling in computing LPC speech coding coefficients
US6026217A (en) * 1996-06-21 2000-02-15 Digital Equipment Corporation Method and apparatus for eliminating the transpose buffer during a decomposed forward or inverse 2-dimensional discrete cosine transform through operand decomposition storage and retrieval
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US6529730B1 (en) * 1998-05-15 2003-03-04 Conexant Systems, Inc System and method for adaptive multi-rate (AMR) vocoder rate adaption
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
US6163766A (en) * 1998-08-14 2000-12-19 Motorola, Inc. Adaptive rate system and method for wireless communications
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
US6385434B1 (en) * 1998-09-16 2002-05-07 Motorola, Inc. Wireless access unit utilizing adaptive spectrum exploitation
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6256606B1 (en) * 1998-11-30 2001-07-03 Conexant Systems, Inc. Silence description coding for multi-rate speech codecs
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6434519B1 (en) * 1999-07-19 2002-08-13 Qualcomm Incorporated Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
US6907073B2 (en) * 1999-12-20 2005-06-14 Sarnoff Corporation Tweening-based codec for scaleable encoders and decoders with varying motion computation capability
WO2002017538A2 (en) * 2000-08-18 2002-02-28 The Regents Of The University Of California Fixed, variable and adaptive bit rate data source encoding (compression) method
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統

Also Published As

Publication number Publication date
EP1676262A2 (en) 2006-07-05
WO2005041169A3 (en) 2005-07-28
US20050091041A1 (en) 2005-04-28
EP1676262A4 (en) 2008-07-09
TW200515372A (en) 2005-05-01
WO2005041169A2 (en) 2005-05-06

Similar Documents

Publication Publication Date Title
TWI281657B (en) Method and system for speech coding
KR100388388B1 (ko) 재생위상정보를사용하는음성합성방법및장치
TW519616B (en) Method and apparatus for predictively quantizing voiced speech
JP5373217B2 (ja) 可変レートスピーチ符号化
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
US10062390B2 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
US5623575A (en) Excitation synchronous time encoding vocoder and method
RU2366007C2 (ru) Способ и устройство для восстановления речи в системе распределенного распознавания речи
US20040083110A1 (en) Packet loss recovery based on music signal classification and mixing
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
TW200912897A (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
WO2010022661A1 (zh) 音频编码、解码方法及装置、系统
JP2003501675A (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
ES2297578T3 (es) Procedimiento y aparato para submuestrear informacion del espectro de fase.
KR20160128871A (ko) 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
JP2002544551A (ja) 遷移音声フレームのマルチパルス補間的符号化
JP2006171751A (ja) 音声符号化装置及び方法
Gajjar et al. Artificial bandwidth extension of speech & its applications in wireless communication systems: a review
Pandey et al. Optimal non-uniform sampling by branch-and-bound approach for speech coding
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
CN114863942A (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
Yeldener et al. Multiband linear predictive speech coding at very low bit rates
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
Jiang et al. A new source‐filter model audio bandwidth extension using high frequency perception feature for IoT communications
KR100477224B1 (ko) 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees